zum Inhalt springen

Text - Information - Wissen: Domänenoffene Textprozessierung und Informationsextraktion

Umsetzung eines innovativen Ansatzes zur Informationsextraktion (IE) innerhalb von Tesla

Verwendet Technologie aus:

Tesla

Beschreibung:

Ziel des Projektes "Text – Information – Wissen" ist die Umsetzung eines innovativen Ansatzes zur Informationsextraktion (IE) innerhalb eines anwenderoffenen Prozessierungssystems, dem Text Engineering Software Laboratory Tesla. Der Ansatz basiert auf Verfahren zur Detektion und Relationierung von Mustern in Texten, die durch die Integration etablierter computerlinguistischer und bioinformatischer Komponenten realisiert werden.

Zu diesem Zweck wurde das Projekt in zwei Phasen unterteilt: In der ersten Projektphase werden weitgehend generische, d.h. keiner spezifischen Anwendungsdomäne zugeordnete Komponenten für die Textprozessierung implementiert, die in der zweiten Projektphase in Tesla zu IE-spezifischen Verfahren kombiniert werden, so dass anhand konkreter Extraktionsprobleme eine vergleichende Evaluation der Komponenten vorgenommen werden kann.

Maalr ist ein Open-Source-Framework zur kollaborativen Erstellung von Online-Wörterbüchern. Lexika und Wörterbücher sind ein zentraler Bestandteil des WWW und gehören nach wie vor zu den meistfrequentierten Angeboten. Viele der bestehenden Wörterbücher bieten Möglichkeiten zur Interaktion. Neben dem Austausch der Nutzer untereinander können oftmals auch vorhandene Einträge kommentiert, Anwendungsbeispiele hinzugefügt, oder aber fehlende Einträge ergänzt werden.

Letztgenannte Funktion steht im Mittelpunkt des Projektes, dessen Ziel es ist ein Open-Source-Framework bereitzustellen, das den kollaborativen Aufbau von lexikalischen Ressourcen durch die Nutzer selbst ermöglicht. Maalr zielt dabei speziell auf kleinere Wörterbuchprojekte, etwa für Kleinsprachen, Dialekte oder auch historische Varietäten, für die keine oder nur wenige Daten vorliegen.