Sprachsynthese und Spracherkennung mit gemeinsamen Datenbasen: Sprachmodell und Aussprachemodellierung (Deutsch)

Werner, Steffen

2007

ISBN:

978-3-940046-65-9

ISSN:

0940-6832

Hochschulschrift / Print

Wie erhalte ich diesen Titel?

TIB vor Ort

Nachweis Campus LUH

TIB-Dokumentlieferung Kostenpflichtig bestellen

Preisinformation

Exportieren, teilen und zitieren

Aktuelle Sprachsynthesesysteme erreichen bereits eine hohe Synthesequalität, obwohl es der synthetischen Sprache im Vergleich zur natürlichen noch stark an Umgangssprachlichkeit und Natürlichkeit mangelt. Diese Arbeit versucht die festen Produktionsregularien im Sprachsyntheseprozess zu überwinden, indem die Wortdauer variiert wird. Diese Variation erfolgt auf der Grundlage, dass häufiger auftretende Wörter schneller gesprochen werden als seltenere. Gleichzeitig treten durch eine schnellere Sprechweise oft Verschleifungen, Transformationen und/oder Auslassungen von Lauten auf, die als Aussprachevarianten modelliert werden können. Durch die Modellierung von Aussprachevarianten und deren Einsatz im Sprachsyntheseprozess kann eine Dauervariation der Wörter indirekt über eine veränderte Lautfolge erfolgen. Durch die Einführung eines Sprachmodells basierend auf Aussprachevarianten kann zudem sichergestellt werden, dass nur aufeinander abgestimmte und zusammengehörige Varianten ausgewählt werden. Die Einführung von Sprachmodell und Aussprachevariante wird in verschiedenen Ausbaustufen erläutert. Die Auswertung umfangreicher Hörtests zeigt die Qualitätssteigerung vor allem in Hinblick auf Natürlichkeit und Umgangssprachlichkeit. Diese Arbeit ist eingebettet in eine Reihe weiterer Arbeiten zur Entwicklung eines integrierten Systems unter Verwendung gleicher Datenbasen sowohl für die Sprachsynthese als auch Erkennung. Durch diesen vereinigenden Ansatz wird es möglich, in jeder Verarbeitungsebene zueinander inverse Algorithmen zu verwenden, die auf gleiche Wissensquellen zugreifen. In diesem Sinne wird im Rahmen der vorliegenden Arbeit ebenfalls das Potential eines Sprachmodells mit Aussprachevarianten, das in der Sprachsynthese eingesetzt wurde, für den Spracherkennungsprozess aufgezeigt.

The existing state-of-the-art speech synthesis systems achieve a high synthesis quality. However, in comparison to natural speech, the synthesized speech still lacks naturalness and colloquial listening impression. In order to overcome the regularties of the speech synthesis process, the word duration is changed in this work. The duration variation is based on the observation that words that are very likely to occur in a given context are spoken more quickly than improbable ones. The faster articulation leads to a less accurate pronuncation, like for example slurring, transformation, assimilation or omission of phonetic sounds. These effects can be modelled by the use of pronunciation variants. The integration of pronunciation variant in the speech synthesis process influences the local speaking rate by an indirect change of the underlying phoneme sequence. The choice of appropriate and matching variants is supported by a language model. This work presents a number of development stages which apply language modeling and pronunciation variants selection algorithms. The evaluation of the conducted listening tests showed that the suggested method improves the listening impression in the categories naturalness and colloquial speech. This work is a part of a research project, which deals with the development of an integrated system that makes use of the same databases for both speech synthesis and recognition. This unified approach enables the application of inverse algorithms in each processing step. Furthermore, the potential of a language model combinded with pronunciation variants as used for speech synthesis is pointed out also for the recognition process.

Titel:

Sprachsynthese und Spracherkennung mit gemeinsamen Datenbasen: Sprachmodell und Aussprachemodellierung
Beteiligte:

Werner, Steffen ( Autor:in )
Erschienen in:

Studientexte zur Sprachkommunikation ; 48 ; 1-146
Verlag:

TUDpress Verlag der Wissenschaften

Erscheinungsort:

Dresden
Erscheinungsdatum:

2007
Format / Umfang:

146 Seiten, Bilder, Tabellen, Quellen
ISBN:

978-3-940046-65-9
ISSN:

0940-6832
Medientyp:

Hochschulschrift
Format:

Print
Sprache:

Deutsch
Schlagwörter:

Spracherkennung , Sprachsynthese , Sprechen (Sprache) , Sprachverarbeitung , Sprachtechnologie , Datenbank , Qualitätsverbesserung
Datenquelle:

Tema Archiv

Wie erhalte ich diesen Titel?

TIB vor Ort

Nachweis Campus LUH

TIB-Dokumentlieferung Kostenpflichtig bestellen

Preisinformation

Schnellzugriff

Ausleihen & Bestellen

Schnellzugriff

Recherchieren & Entdecken

Schnellzugriff

Lernen & Arbeiten

Schnellzugriff

Publizieren & Archivieren

Schnellzugriff

Über die TIB

Schnellzugriff

Forschung & Entwicklung

Sprachsynthese und Spracherkennung mit gemeinsamen Datenbasen: Sprachmodell und Aussprachemodellierung (Deutsch)

Wie erhalte ich diesen Titel?

Exportieren, teilen und zitieren

Mehr Angaben zu diesem Treffer

Ähnliche Titel

Wie erhalte ich diesen Titel?

Exportieren, teilen und zitieren