Projekt D4 (Kuhn)

Methoden zur interaktiven linguistischen Korpusanalyse von Informationsstruktur

Beschreibung

Im neu beantragten Projekt D4 sollen computerlinguistische Werkzeuge und Ressourcen, maschinelle Lernverfahren und statistische Methoden kombiniert werden zu einer flexiblen, interaktiven Untersuchungsmethode für Informationsstruktur (IS) in großen Korpora – sowohl für verschiedene Einzelsprachen, als auch kontrastiv auf Parallelkorpora. Der Ansatz ist charakterisiert durch maschinelles Lernen aufgrund von interaktiver linguistischer Annotation (LAILA) und stellt eine Ergänzung zur schon bisher im SFB entwickelten Korpus-Infrastruktur und der Annotations- und Auswertungsmethodologie dar, welche den Schwerpunkt auf relativ kleine, sorgfältig elizitierte und handannotierte Datensammlungen legt: mit der LAILA-Methode können unannotierte Korpusdaten einer raschen Exploration oder einer phänomenorientierten, kontrollierten Frequenzanalyse unterzogen werden – mit der Zielsetzung, den unumgehbaren manuellen Aufwand für die Annotation/Überprüfung von Trainings- bzw. Kontrolldaten möglichst effektiv für die linguistischen Untersuchungsziele einzusetzen.

Die linguistische IS-Forschung kann von LAILA sowohl bei der Einzelbelegsuche nach seltenen Realisationsformen in sehr großen Korpora profitieren, als auch bei der Bestimmung der Frequenzverteilung von alternativen IS-Realisierungen oder von IS-relevanten Parametern des lexikalischen, strukturellen oder Diskurs-Kontexts. Für Frequenzanalysen werden kontrollierte Stichproben erzeugt, die manuell überprüft werden und von denen ausgehend statistisch generalisiert werden kann. Frequenzdaten für große Korpora ergänzen die bisher im SFB entwickelten elizitierten Spezialkorpora zur IS komplementär: letztere kontrollieren die Verwendungskontexte für IS sorgfältig, so dass für die typologische Forschung die qualitative Vergleichbarkeit gewährleistet ist; mit Frequenzdaten kann (abhängig von dem Sprachausschnitt, den verfügbare Korpora dokumentieren) quantitativ überprüft werden, wie sich die elizitierten Realisierungsalternativen und mögliche zusätzliche Varianten in freier Sprache verteilen.

Alignierte mehrsprachige Parallelkorpus-Daten eignen sich in doppelter Hinsicht für die LAILA-Methode – einerseits als direkte Datenquelle für kontrastive Untersuchungen zur IS, andererseits zur Verbesserung der Trainingsbasis für einzelsprachliche Werkzeuge: Analyseinformation zu einer Sprache kann mit der Annotationsprojektions-Technik (Yarowsky et al. 2001) als Hilfs-Ressource für andere Sprachen ausgenutzt werden.

In der kommenden SFB-Phase stehen für D4 drei exemplarische Anwendungsszenarien im Vordergrund: (1) Für das Deutsche soll die Einzelbelegsuche und die Frequenzbestimmung der wichtigsten grammatischen Mittel zur IS-Realisierung unterstützt werden. In Kooperation mit A1 werden korpusbasiert mögliche IS-Faktoren untersucht, die die Platzierung von Relativsätzen im Deutschen (im Mittelfeld vs. extraponiert) beeinflussen. Mit Projekt C1 soll die Technik in Bezug auf die Vorfeldbesetzung durch Objekte auf dem C1-Zeitungskorpus validiert werden. (2) Auf Basis des Europarl-Korpus (Koehn 2002) mit Übersetzungen der EU-Parlamentsdebatten in 11 (bzw. 20) Sprachen soll Werkzeugunterstützung für eine kontrastive IS-Analyse bereitgestellt werden, die dann u.a. in Kooperation mit D2 für Untersuchungen zur Mikrovariation ausgenutzt werden, insbesondere zu Topikalisierungs- und Cleft-Konstruktionen. (3) Hindi dient als Beispiel für Sprachen, für die wenige Analysewerkzeuge zur Verfügung stehen. Gemeinsam mit C5 und unter Ausnutzung eines Parallelkorpus Englisch–Hindi und von Werkzeugen für das Englische soll eine Frequenzanalyse IS-relevanter Kategorien und Kontextparameter für Hindi vorgenommen werden.

Vollständige Beschreibung 2. Förderperiode SFB 632 / D4 (Auszug aus dem Antrag) pdficon small

 


publish Beschreibung   user Mitarbeiter   document-library Publikationen   communication Aktivitäten