Projekt T2 (Kügler, Stede)

Informationsstruktur in der Sprachsynthese

Beschreibung

Die Automatische Sprachsynthese ist heute auf dem Stand, dass „Computerstimmen“ für viele Zwecke (Dialogsysteme, Vorlesesysteme) praktisch einsetzbar sind. Nach dem text-to-speech Paradigma lassen sich für die Synthese von Sätzen mit nur minimaler syntaktischer Analyse passable Ergebnisse erzielen. Sind aber die Äußerungen in längeren Kontext eingebettet, treten Defizite zutage, die vor allem der fehlenden Behandlung von Informationsstruktur (IS) geschuldet sind: Gegebene kann nicht von neuer Information unterschieden werden, fokussierte Information oder kontrastierende Elemente sind nicht als solche gekennzeichnet. Unser Projekt zielt darauf, durch diskursbezogene Information die Syntheseergebnisse deutlich zu verbessern. Grundlage soll ein bereits bestehendes Textgenerierungssystem für die Aufgabe der Produktberatung sein, das ähnliche Produkte miteinander vergleicht und anhand der Benutzeranfrage Empfehlungen gibt. Hier ist es möglich, Informationen über den Aktivierungsgrad von Diskursreferenten und über Kontrastivität unmittelbar aus den Daten zu gewinnen. Die erste Teilaufgabe besteht also in der Bereitstellung von IS Annotationen als „markup“ an den Ausgabetexten, und die zweite in der „Übersetzung“ in prosodische Parameter für die Synthese.

Wir verwenden für die Sprachsynthese die vom Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) entwickelte Software MARY, die die erforderlichen Eingriffe in die Prosodiesteuerung erlaubt. Unsere Erkenntnisse zur Umsetzung von IS sollen dann wiederum in die Weiterentwicklung von MARY zurückfließen, weshalb das DFKI als Partner in diesem Transfer-Projekt vorgesehen ist. Des weiteren wird die Potsdamer beyo GmbH als Partner mitwirken und ihre Erfahrung in der Entwicklung und Vermarktung von „Vorleseautomaten“ für die Evaluation unserer Syntheseergebnisse einbringen.

Auf der Seite der Textgenerierung ist unser maßgebliches Forschungsziel, möglichst generell verwendbare Mechanismen der Abbildung zwischen Diskursmodellen von Textgeneratoren und IS-Annotationen in den Ausgabe-Strings zu entwickeln. Als tagset werden wir zunächst das der SFB-Richtlinien aus Phase 2 verwenden. Für jeden generierten Dialogbeitrag werden IS-Annotationen zum Grad der Gegebenheit von Diskursreferenten, zur Topikalität und zur Fokussierung (insbesondere Kontrastfokus bei Vergleichen) an den Ausgabestring etikettiert.

Bei der Sprachsynthese liegt die zentrale Forschungsfrage in der Komplexität der Beziehung von IS und phonologischer Struktur und damit die Entwicklung eines Berechnungsalgorithmus, der beide Informationen notwendigerweise verknüpft. Die aus dem Generator kommenden IS-Annotationen im Ausgabestring bilden eine Säule für die zu bestimmende prosodische Annotation, die durch die IS-Annotation genauere Informationen wie postfokale Gegebenheit oder Kontrast einbeziehen kann. Eine prosodiebezogene Aufgabe des Projektes wird sein, die Güte der vom Synthesemodul zugewiesenen tonalen Struktur zu prüfen.

Vollständige Beschreibung 3. Förderperiode SFB 632 / T2 (Auszug aus dem Antrag) pdficon small

 


publish Beschreibung    user Mitarbeiter    document-library Publikationen    communication Aktivitäten