Projekt D1 (Lüdeling, Stede)

Linguistische Datenbank für Informationsstruktur: Annotation und Retrieval

Beschreibung

Die Ziele des Projekts D1 in der 3. Phase sind: (i.) die weitere Erstellung, Verfügbarmachung und Auswertung von informationsstrukturell annotierten linguistischen Korpusdaten, (ii.) die Weiterentwicklung der Software-Infrastruktur für Annotation und Datenhaltung, sowie (iii.) die Betreuung und Pflege der Daten aus denempirisch arbeitenden Teilprojekten des SFB. In dieser Phase konzentriert sich das Projekt neben der Implementierung einiger noch wünschenswerter Möglichkeiten in der Datensuche und -visualisierung auf die Bereitstellung größerer, (teil-)automatisch annotierter Datenmengen und auf die Erstellung von automatischen Annotationswerkzeugen informationsstruktur-relevanter Kategorien, welche sowohl die Erschließung neuer Daten als auch die weitere Annotation der bestehenden Daten anderer Projekte ermöglichen sollen. In der Suchkomponente planen wir bspw. die Unterstützung von Dialogdaten mit mehreren Tokenströmen, spezielle Suchmöglichkeiten für Dependenzbäume, die Einbindung von Elizitationsmaterialien (wie z.B. Abbildungen aus QUIS) und Online-Ressourcen (z.B. Verlinkung von Metadaten, Lexika, weiteren externen Korpora, Ontologien zur Tagset-Dokumentation, googlemaps u.v.a.m.), Streaming für multimodale Daten sowie Verbesserungen in der Performanz, in der Anfragensprache und in den Import/Export-Möglichkeiten der Datenbank. Die über die Datenbank bereitgestellten, z.T. automatisch annotierten Daten sollen anschließend im Hinblick auf das Zusammenspiel zwischen den Merkmalen, die den informationsstrukturellen Kategorien in den jeweiligen Sprachen zugrunde liegen, quantitativ ausgewertet werden, mit dem Ziel, die Korrelationen zwischen den Ebenen mit teils graduellen Merkmalen empirisch zu beschreiben.

Ergänzend zur in Phase 2 praktizierten „unmittelbaren“ Annotation informationsstruktureller Kategorien sollen oberflächennähere Merkmale nutzbar gemacht werden, die ihrerseits die Zuweisung von IS-Kategorien beeinflussen. Dabei werden möglichst eindeutig operationalisierbare Kategorien anvisiert, wie Definitheit, Vorerwähntheit, Koreferenz, Belebtheit (vgl. Øvrelid 2006 für Norwegisch), morphologische Merkmale (v.a. in Sprachen mit oberflächenmarkierten IS-Kategorien) oder Feldertopologie (für das Deutsche). Konkret sollen u.a. ein robuster Parser für topologische Felder in verschiedenen Varietäten des Deutschen sowie Wortartentagger für verschiedene Sprachen entwickelt werden, die die Datenlage und Korpuserstellung in einigen Teilprojekten dramatisch verbessern sollen, insbesondere die mit den Satzperipherien beschäftigten Projekte (A6, B6, B8) bzw. die Projekte, die afrikanische Sprachen untersuchen, für die man größere Datenmengen aus dem Internet gewinnen und automatisch verarbeiten kann (B7 und A5, v.a. für die westafrikanischen Sprachen Hausa und Wolof).

Beschreibung Linguistische Datenbank ANNIS  publish

Vollständige Beschreibung 3. Förderperiode SFB632 / D1 (Auszug aus dem Antrag) pdficon small

 


publish Beschreibung   user Mitarbeiter   document-library Publikationen   communication Aktivitäten   archives 1. Förderperiode   archives 2. Förderperiode