Projekt D4: Methoden zur interaktiven linguistischen Korpusanalyse von Informationsstruktur
Antragsteller
| Prof. Dr. Jonas Kuhn | ![]() |
Ehemalige Mitarbeiter
| Dr. Gerlof Bouma | ![]() |
||
| Dr. Lilja Øvrelid | |||
| Dr. Bettina Schrader | ![]() |
||
| Kathrin Spreyer | ![]() |
Beschreibung
Im neu beantragten Projekt D4 sollen computerlinguistische Werkzeuge und Ressourcen, maschinelle Lernverfahren und statistische Methoden kombiniert werden zu einer flexiblen, interaktiven Untersuchungsmethode für Informationsstruktur (IS) in großen Korpora – sowohl für verschiedene Einzelsprachen, als auch kontrastiv auf Parallelkorpora. Der Ansatz ist charakterisiert durch maschinelles Lernen aufgrund von interaktiver linguistischer Annotation (LAILA) und stellt eine Ergänzung zur schon bisher im SFB entwickelten Korpus-Infrastruktur und der Annotations- und Auswertungsmethodologie dar, welche den Schwerpunkt auf relativ kleine, sorgfältig elizitierte und handannotierte Datensammlungen legt: mit der LAILA-Methode können unannotierte Korpusdaten einer raschen Exploration oder einer phänomenorientierten, kontrollierten Frequenzanalyse unterzogen werden – mit der Zielsetzung, den unumgehbaren manuellen Aufwand für die Annotation/Überprüfung von Trainings- bzw. Kontrolldaten möglichst effektiv für die linguistischen Untersuchungsziele einzusetzen.
Die linguistische IS-Forschung kann von LAILA sowohl bei der Einzelbelegsuche nach seltenen Realisationsformen in sehr großen Korpora profitieren, als auch bei der Bestimmung der Frequenzverteilung von alternativen IS-Realisierungen oder von IS-relevanten Parametern des lexikalischen, strukturellen oder Diskurs-Kontexts. Für Frequenzanalysen werden kontrollierte Stichproben erzeugt, die manuell überprüft werden und von denen ausgehend statistisch generalisiert werden kann. Frequenzdaten für große Korpora ergänzen die bisher im SFB entwickelten elizitierten Spezialkorpora zur IS komplementär: letztere kontrollieren die Verwendungskontexte für IS sorgfältig, so dass für die typologische Forschung die qualitative Vergleichbarkeit gewährleistet ist; mit Frequenzdaten kann (abhängig von dem Sprachausschnitt, den verfügbare Korpora dokumentieren) quantitativ überprüft werden, wie sich die elizitierten Realisierungsalternativen und mögliche zusätzliche Varianten in freier Sprache verteilen.
Alignierte mehrsprachige Parallelkorpus-Daten eignen sich in doppelter Hinsicht für die LAILA-Methode – einerseits als direkte Datenquelle für kontrastive Untersuchungen zur IS, andererseits zur Verbesserung der Trainingsbasis für einzelsprachliche Werkzeuge: Analyseinformation zu einer Sprache kann mit der Annotationsprojektions-Technik (Yarowsky et al. 2001) als Hilfs-Ressource für andere Sprachen ausgenutzt werden.
In der kommenden SFB-Phase stehen für D4 drei exemplarische Anwendungsszenarien im Vordergrund: (1) Für das Deutsche soll die Einzelbelegsuche und die Frequenzbestimmung der wichtigsten grammatischen Mittel zur IS-Realisierung unterstützt werden. In Kooperation mit A1 werden korpusbasiert mögliche IS-Faktoren untersucht, die die Platzierung von Relativsätzen im Deutschen (im Mittelfeld vs. extraponiert) beeinflussen. Mit Projekt C1 soll die Technik in Bezug auf die Vorfeldbesetzung durch Objekte auf dem C1-Zeitungskorpus validiert werden. (2) Auf Basis des Europarl-Korpus (Koehn 2002) mit Übersetzungen der EU-Parlamentsdebatten in 11 (bzw. 20) Sprachen soll Werkzeugunterstützung für eine kontrastive IS-Analyse bereitgestellt werden, die dann u.a. in Kooperation mit D2 für Untersuchungen zur Mikrovariation ausgenutzt werden, insbesondere zu Topikalisierungs- und Cleft-Konstruktionen. (3) Hindi dient als Beispiel für Sprachen, für die wenige Analysewerkzeuge zur Verfügung stehen. Gemeinsam mit C5 und unter Ausnutzung eines Parallelkorpus Englisch–Hindi und von Werkzeugen für das Englische soll eine Frequenzanalyse IS-relevanter Kategorien und Kontextparameter für Hindi vorgenommen werden.
Vollständige Beschreibung (Auszug aus dem Antrag) 
Publikationen
|
(2010).
Collocation Extraction beyond the Independence Assumption.
Short paper to appear in Proceedings of ACL 2010, Uppsala
| |
|
(2010).
Syntactic tree queries in Prolog.
Short paper to
appear in Proceeding of the Linguistic Annotation Workshop IV at ACL 2010, Uppsala.
| |
|
(2010).
Towards a Large Parallel Corpus of Cleft Constructions.
In Proceedings of LREC 2010, Malta.
| |
|
(2010).
Design and Development of Part-of-Speech-Tagging Resources for Wolof (Niger-Congo, spoken in Senegal).
In Proceedings of LREC 2010, Malta.
| |
|
(2010).
Cross-framework parser stacking for data-driven dependency parsing.
Traitement Automatique des Langues (TAL) Special Issue on Machine Learning for NLP 50.
| |
|
(2010).
Hard Constraints for Grammatical Function Labelling.
In Proceedings of ACL 2010, Uppsala.
| |
|
(2010).
Training Parsers on Partial Trees: A Cross-language Comparison.
In Proceedings of LREC 2010, Malta.
| |
|
(2009).
Normalized (Pointwise) Mutual Information in Collocation Extraction.
In: Chiarcos, C., Castilho, E. de & Stede, M. (eds).
Von der Form zur Bedeutung: Texte automatisch verarbeiten / From Form to Meaning: Processing Texts Automatically, Proceedings of the Biennial GSCL Conference 2009, pp. 31-40
Tübingen, Gunter Narr Verlag.
| |
|
(2009).
On the split nature of the Dutch laten-causative.
In: Butt & King (eds).
The Proceedings of the LFG'09 Conference, pp. 167-187, CSLI.
| |
|
(2009).
Cross-lingual porting of distributional semantic classification.
In Proceedings of the 17th Nordic Conference on Computational Linguistics (NODALIDA).
| |
|
(2009).
Empirical evaluations of animacy annotation.
In Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics (EACL).
| |
|
(2009).
Improving data-driven dependency parsing using large-scale LFG grammars.
In Proceedings of the 47th Annual Meeting of ACL and 4th International Joint Conference on NLP (ACL-IJCNLP 2009) (Short Paper).
| |
|
(2009).
Data-driven dependency parsing of new languages using incomplete and noisy training data.
In Proceedings of the Thirteenth Conference on Computational Natural Language Learning (CoNLL),
Boulder, CO.
| |
|
(2009).
Exploiting Translational Correspondences for Pattern-Independent MWE Identification.
In Proceedings of the 2009 Workshop on Multiword Expressions: Identification, Interpretation, Disambiguation and Applications (MWE 2009), pages 23 - 30,
Singapore: Association for Computational Linguistics.
| |
|
(2008).
Parallel LFG Grammars on Parallel Corpora: A Base for Practical Triangulation.
In Butt, M. & King, T.H. (eds.).
Proceedings of the LFG08 Conference, pp. 169-189, Sydney, Australia.
Stanford: CSLI Publications
| |
|
(2008).
Projection-based Acquisition of a Temporal Labeller.
In Proceedings of the Third International Joint Conference on Natural Language Processing (IJCNLP-2008), pp. 489-496, Hyderabad, India.
Hyderabad, India.
| |
|
(2008).
Identification of Comparable Argument-Head Relations in Parallel Corpora.
In ELRA (ed.), Proceedings of the Sixth International Language Resources and Evaluation (LREC'08), Marrakech, Marocco.
|
Aktivitäten
. |
Legende
UP = Universität Potsdam (Map)
![[interner Verweis]](img/link_extern_small.gif)
GOLM = Universitätskomplex II - Golm, Karl-Liebknecht-Str. 24-25, D-14476 Potsdam
![[interner Verweis]](img/link_extern_small.gif)
Am Neuen Palais = Universitätskomplex I - Am Neuen Palais 10, D-14469 Potsdam
![[interner Verweis]](img/link_extern_small.gif)
