D1: 2nd Phase (Stede, Lüdeling)

Linguistic Database for Information Structure: Annotation and Retrieval

[ This phase of the project is completed. It was in progress from 01.07.2007 until 30.06.2011 ]

Description [only German version available]

In der ersten Phase des SFB hat Projekt D1 die Linguistische Datenbank ANNIS entworfen und implementiert und den Prozess der Daten-Annotation in verschiedenen Teilprojekten aktiv unterstützt, einerseits durch Mitarbeit beim Entwurf von Annotationsrichtlinien, andererseits durch die Evaluation von Annotations-Software und Schulung von Mitarbeitern. Zudem wurde im letzten Jahr (nach Bereitstellung einer weiteren halben Mitarbeiterstelle) damit begonnen, Methoden der statistischen Auswertung von Mehrebenen-Annotationen zu entwerfen, diese auf die im SFB annotierten Daten anzuwenden und entsprechende Werkzeuge auch in ANNIS zu integrieren. Für die Fortführung des Projekts in der zweiten Phase ergeben sich vier Schwerpunkte:

(1) Die Architektur von Mehrebenen-Annotationen (MEA), wie sie auch in ANNIS realisiert ist, hat sich in den letzten Jahren zu einer hochaktuellen Fragestellung in der korpusorientierten Computerlinguistik und der Korpuslinguistik entwickelt. Hier gilt es, an den internationalen Entwicklungen teilzuhaben, um sicherzustellen, dass die im SFB entstehenden wertvollen Daten-Ressourcen in Formaten vorliegen, die ihre weltweite Nutzung ermöglichen. Die Forschungsziele betreffen die Weiterentwicklung unseres Repräsentationsformats, die theoretische sowie anwendungsbezogene Untersuchung von Suchanfragesprachen für MEA und die besonderen Erfordernisse der Qualitätssicherung, die sich bei MEA ergeben.

(2) Die Weiterentwicklung der ANNIS Software soll sich auf die Unterstützung der Datenaufbereitung durch die Nutzer, die Verbesserung der Suchanfragesprache (s.o.), die weitere Integration statistischer Auswertungsmodule, die Verbesserung der Visualisierung der MEA-Daten und schließlich die technischen Aspekte der Korpusverwaltung (XML- versus relationale Datenbank, Nutzergruppen und –rechte, etc.) konzentrieren..

(3) Mit Methoden der qualitativen und quantitativen Datenauswertung werden wir einerseits die besonderen Bedingungen der Wissensgewinnung aus MEA-Daten analysieren (u.a. die Integration konkurrierender Analysen und ihre Konsequenzen für Recherche und statistische Auswertung). Zum anderen sollen weitere Analysewerkzeuge in ANNIS integriert werden. Hier sind die Schwerpunkte das „annotation mining“, d.h. die automatische Suche nach Mustern in den MEA-Daten, die Unterstützung des Annotationsprozesses durch teilautomatische Verfahren, und schließlich die Projektion von informationsstruktureller Annotation zwischen Korpora in verschiedenen Sprachen.

(4) Die Betreuung der Teilprojekte, die mit empirischen Daten arbeiten, wird auch weiterhin die zentrale Dienstleistung von D1 sein (Unterstützung der Annotationsprozesse, Datenaufbereitung, Datenauswertung, etc.), wobei besonderes Augenmerk auf die Qualitätssicherung und Evaluation der Annotationen zu legen ist. 

Description Linguistic Database ANNIS  publish

Full description 2nd phase SFB 632 / D1 (extract from the application)  pdficon small

Principal Investigators

Prof. Dr. Manfred Stede, University of Potsdam  contact

Prof. Dr. Anke Lüdeling, Humboldt-Universität zu Berlin  contact

 


publish Description   user Staff   document-library Publications   communication Activities   archives 1st Phase   archives 2nd Phase