Nachhaltigkeit linguistischer Daten (Co-Projekt)

In den Sonderforschungsbereichen 441, 538 und 632 werden elektronische Kollektionen linguistischer Daten erstellt, die für die Untersuchung sprachwissenschaftlicher Fragestellungen genutzt werden. Diese empirischen Ressourcen sind über die jeweiligen SFBs hinaus für die linguistische und philologische Forschung insgesamt von hohem Nutzen. Das dem SFB 441 angegliederte Projekt C2 hat das Ziel, die Voraussetzungen für die nachhaltige allgemeine Verfügbarkeit dieser Daten auch nach der Beendigung der SFBs zu schaffen.

Die in den drei beteiligten SFBs vorhandenen Daten zeichnen sich durch ein hohes Maß an Heterogenität aus. Bereits innerhalb der einzelnen SFBs ist eine signifikante Diversität der Ressourcen zu konstatieren. Betrachtet man die Datenkollektionen aller drei SFBs, zeigt sich diese Diversität umso ausgeprägter. Insgesamt decken die Ressourcen ein breites Spektrum an zentralen Datentypen und typischen Daten ab (geschriebene und gesprochene Sprache; synchrone und diachrone Daten; hierarchische und zeitachsenbasierte Annotationen auf verschiedenen Ebenen; lexikalische Ressourcen und andere Sekundärdaten etc.).

Das Ziel der nachhaltigen Verfügbarkeit der Daten ist mit grundsätzlichen Herausforderungen verbunden, die exemplarischen Charakter für die Nachhaltigkeit linguistischer Datenkollektionen insgesamt haben. Das Projekt C2 soll generische Lösungen entwickeln, die auf andere linguistische Datenkollektionen übertragbar sind. Es soll ein genereller infrastruktureller Rahmen erarbeitet werden, der für linguistische Ressourcen offen und mit anderen Nachhaltigkeitsinitiativen kompatibel ist.