zum Inhalt springen

SPre - Ein konsequent konfigurierbarer Präprozessor

Erstellung eines Programms zur Segmentierung und Annotierung von Texten beliebigen Formats

Projektverantwortliche:

Christoph Benden
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln

Dr. Jürgen Hermes
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln

Gate-Plugin-Versionen:

  • spre (zip) (5818KB) Vollversion mit Quelltexten und Dokumentation (5,9 MB, Version 050512)
  • spre_small (zip) (192KB) Archiv-Version (0,2 MB, Version 050512)

Ältere Versionen:

Dokumentation (Anleitungen):

Dokumentation (Veröffentlichungen, Präsentationen):

(für Attachments siehe Seite von Dr. Jürgen Hermes)

  • Poster (pdf), vorgestellt auf der KONVENS 2004
  • Paper (pdf) aus dem Tagungsband der KONVENS 2004
  • Abstract (pdf) aus dem Tagungsband der DGfS Jahrestagung 2005
  • Poster (pdf), vorgestellt auf der DGfS Jahrestagung 2005
  • Paper (pdf) für den Tagungsband der GLDV Frühjahrstagung 2005
  • Präsentation (pdf) zum Vortrag auf der GLDV Frühjahrstagung 2005

Wird wiederverwendet in:

Tesla

Beschreibung:

SPre ist ein Programm, mit dem Texte beliebigen Formates segmentiert und annotiert werden können. Die Algorithmen zur Segmentierung sind mittels einer XML-Datei relativ frei konfigurierbar. Ebenso können eigene Annotatoren in das Projekt integriert werden. Das SPre-Projekt ist demnach so konstruiert, dass es eine grundlegende Architektur bereitstellt (implementiert in der Programmiersprache Java), in die Komponenten als Plugins übernommen werden können.

SPre wurde zunächst als Plugin für GATE veröffentlicht und kann entweder in einer Version incl. Quelltext und Dokumentation oder als binäres jar-Archiv heruntergeladen werden. Beiden Distributionen liegen die benötigten Konfigurationsdateien (für GATE und SPre) bei.

Für Benutzer von SPre unter GATE steht eine detaillierte Anleitung zum Download bereit. Daneben finden sich Poster und Beitrag zum Präprozessor, der auf der KONVENS (Konferenz zur Verarbeitung natürlicher Sprache) 2004 in Wien vorgestellt wurde (das Programm hieß zu diesem Zeitpunkt noch XPre), der Beitrag und die Präsentation zur Frühjahrstagung der GLDV (2005) in Bonn, sowie das Poster für die Demo- und Postersession der Sektion Computerlinguistik auf der DGfS-Jahrestagung 2005.

Die Weiterentwicklung von SPre erfolgt inzwischen im Rahmen des Komponentensystems Tesla, in die es als präprozessierende Komponente in eingebettet wurde. Die aktuelle Version von SPre ist demnach auch über die Tesla updatesite verfügbar.

 

Ziel des Projekts Selbstorganisierendes semantisches Wissen ist es, das Bedeutungspotential sprachlicher Zeichen durch ein selbstlernendes System zu erfassen.

Selbstorganisierendes semantisches Wissen

1950 beschrieb der geniale englische Mathematiker Alan Turing in der Zeitschrift Mind den später nach ihm benannten Test. Der Turing-Test ist ein Gedankenspiel, das im Grunde genommen das Ein/Ausgabeverhalten einer Maschine dann als intelligent beschreibt, wenn einem menschlichen Mitspieler nicht auffällt, daß der Spielpartner kein Mensch ist. Der Turing-Test ist durch Weizenbaum und durch Searle kritisch untersucht worden. Weizenbaum karikierte ihn durch sein Programm Eliza; Eliza simuliert durch bloßes Pattern-Matching einen Dialog zwischen Mensch und Maschine mit teilweise erstaunlichen Resultaten.

Der kalifornische Philosoph und Sprachwissenschaftler John Searle ersann das Gedankenexperiment des Chinesischen Zimmers, dessen Bewohner nur Englisch spricht, Karten mit chinesischen Schriftzeichen und eine englischsprachige Anleitung zur deren Kombinatorik besitzt. Wird nun eine chinesische Frage als Folge von Karten in das Zimmer geschickt, so kann der Bewohner des Zimmers diese Frage mit Hilfe der Karten und der Anleitung beantworten und nach außen den Eindruck erwecken, er könne Chinesisch und habe die Frage tatsächlich verstanden. Searle vergleicht das Verhalten des Bewohners mit regelbasierten sprach- und wissensverarbeitenden Systemen, die rein syntaktisch ohne auf Bedeutung Bezug zu nehmen operieren und mitunter in ihren Ergebnissen Anforderungen etwa des Turing-Tests genügen können.

Die Unzulänglichkeit regelbasierter Systeme zeigt sich auch praktisch im Umgang mit digitalen Texten, deren Umfang in den letzten Jahren enorm zugenommen hat.

Verfahren des Mustervergleichs (Pattern Matching) oder der rein syntaktischen Verarbeitung vermögen diese Texte nicht hinreichend zu erschließen. Auszeichnungswerkzeuge, die beispielsweise im Semantic Web zum Einsatz kommen, haben einige Nachteile: Die von einem menschlichen Bearbeiter vorzunehmende Auszeichnung ('Mark up') ist aufwendig. Angesichts der quantitativen Anforderungen ist es außerordentlich schwierig, die Auszeichnungen konsistent zu halten. Schließlich fixiert der Bearbeiter eine Bedeutung auch dann, wenn es mehrere gibt. Die Beziehung zwischen der Ausdrucksseite eines sprachlichen Zeichens und seinem Inhalt wird nicht allein normiert, sondern auch verengt. Das Bedeutungspotential sprachlicher Ausdrücke wird damit nicht erfaßt. Die Flexibilität, Anpaßbarkeit und somit Ökonomie menschlicher Sprache beruht jedoch auf dem Bedeutungspotential der sprachlichen Zeichen.

Ziel des Projekts Selbstorganisierendes semantisches Wissen ist es, das Bedeutungspotential sprachlicher Zeichen durch ein selbstlernendes System zu erfassen. In der inzwischen abgeschlossenen ersten Projektphase galt es zunächst eine technische Infrastruktur, entsprechend des im Projektantrag formulierten Projektziels, bereitzustellen. Dazu zählte u.a. der Aufbau eines mehrsprachigen Korpus linguistischer Rohdaten und eines Systems, das eine Evaluierung unterschiedlicher Algorithmen und Algorithmenketten zur Extraktion semantisch verwertbarer Merkmale auf Grundlage des Korpus bzw. ausgewählter Korpusauschnitte erlaubt.

Die Sprachliche Informationsverarbeitung nimmt hinsichtlich des verfolgten Projektziels eine kritische und doch pragmatische Sichtweise auf bereits existierende Ansätze und Untersuchungen zur automatischen Extraktion semantischer Merkmale aus linguistischen Daten ein.

Pragmatisch ist die gezielte Verwendung bereits untersuchter Heuristiken, wobei deren Ursprung nicht allein linguistisch motiviert sein muss, sondern zugleich allgemeinere Perspektiven der Mathematik und der Informatik in die Untersuchungen miteinbezogen werden. Vor einer softwaretechnologischen Implementierung bestimmter Algorithmen werden diese jeweils hinsichtlich ihrer linguistischen Relevanz und Nutzbarkeit in Relation zum Projektziel evaluiert. Oftmals ergeben sich daraus bereits in der Analysephase eventuell notwendige Extensionen oder Modifizierungen der Basisalgorithmen.

Die kritische Perspektive äußerst sich darin, Heuristiken nicht nur für sich selbst, sondern insbesondere prozessorientiert, d.h. in Kombination mit anderen Heuristiken zu untersuchen. Das in der ersten Projektphase implementierte System SEMALD (System zur Evaluierung Multipler Algorithmen auf Linguistischen Daten) stellt dafür verschiedene Softwarebausteine zur Verfügung, die jeweils bestimmte Algorithmen implementieren. Dazu gehören z.B. verschiedene Verfahren des "Pattern Matching", Komponenten zum Mapping syntaktischer Eigenschaften auf numerische Werte und Varianten neuronaler Netze (z.B. Self Organizing Maps). Diese Bausteine können dann flexibel zu verschiedenen Prozessketten kombiniert werden. SEMALD kann somit auch als ein "Konkurrenzsystem" verwendet werden, bei dem sich die Qualität der Ergebnisse durch die Auswahl des besten Outputs wettstreitender Prozessketten ergibt.
Ziel des Projekts Selbstorganisierendes semantisches Wissen ist es, das Bedeutungspotential sprachlicher Zeichen durch ein selbstlernendes System zu erfassen.

Selbstorganisierendes semantisches Wissen

1950 beschrieb der geniale englische Mathematiker Alan Turing in der Zeitschrift Mind den später nach ihm benannten Test. Der Turing-Test ist ein Gedankenspiel, das im Grunde genommen das Ein/Ausgabeverhalten einer Maschine dann als intelligent beschreibt, wenn einem menschlichen Mitspieler nicht auffällt, daß der Spielpartner kein Mensch ist. Der Turing-Test ist durch Weizenbaum und durch Searle kritisch untersucht worden. Weizenbaum karikierte ihn durch sein Programm Eliza; Eliza simuliert durch bloßes Pattern-Matching einen Dialog zwischen Mensch und Maschine mit teilweise erstaunlichen Resultaten.

Der kalifornische Philosoph und Sprachwissenschaftler John Searle ersann das Gedankenexperiment des Chinesischen Zimmers, dessen Bewohner nur Englisch spricht, Karten mit chinesischen Schriftzeichen und eine englischsprachige Anleitung zur deren Kombinatorik besitzt. Wird nun eine chinesische Frage als Folge von Karten in das Zimmer geschickt, so kann der Bewohner des Zimmers diese Frage mit Hilfe der Karten und der Anleitung beantworten und nach außen den Eindruck erwecken, er könne Chinesisch und habe die Frage tatsächlich verstanden. Searle vergleicht das Verhalten des Bewohners mit regelbasierten sprach- und wissensverarbeitenden Systemen, die rein syntaktisch ohne auf Bedeutung Bezug zu nehmen operieren und mitunter in ihren Ergebnissen Anforderungen etwa des Turing-Tests genügen können.

Die Unzulänglichkeit regelbasierter Systeme zeigt sich auch praktisch im Umgang mit digitalen Texten, deren Umfang in den letzten Jahren enorm zugenommen hat.

Verfahren des Mustervergleichs (Pattern Matching) oder der rein syntaktischen Verarbeitung vermögen diese Texte nicht hinreichend zu erschließen. Auszeichnungswerkzeuge, die beispielsweise im Semantic Web zum Einsatz kommen, haben einige Nachteile: Die von einem menschlichen Bearbeiter vorzunehmende Auszeichnung ('Mark up') ist aufwendig. Angesichts der quantitativen Anforderungen ist es außerordentlich schwierig, die Auszeichnungen konsistent zu halten. Schließlich fixiert der Bearbeiter eine Bedeutung auch dann, wenn es mehrere gibt. Die Beziehung zwischen der Ausdrucksseite eines sprachlichen Zeichens und seinem Inhalt wird nicht allein normiert, sondern auch verengt. Das Bedeutungspotential sprachlicher Ausdrücke wird damit nicht erfaßt. Die Flexibilität, Anpaßbarkeit und somit Ökonomie menschlicher Sprache beruht jedoch auf dem Bedeutungspotential der sprachlichen Zeichen.

Ziel des Projekts Selbstorganisierendes semantisches Wissen ist es, das Bedeutungspotential sprachlicher Zeichen durch ein selbstlernendes System zu erfassen. In der inzwischen abgeschlossenen ersten Projektphase galt es zunächst eine technische Infrastruktur, entsprechend des im Projektantrag formulierten Projektziels, bereitzustellen. Dazu zählte u.a. der Aufbau eines mehrsprachigen Korpus linguistischer Rohdaten und eines Systems, das eine Evaluierung unterschiedlicher Algorithmen und Algorithmenketten zur Extraktion semantisch verwertbarer Merkmale auf Grundlage des Korpus bzw. ausgewählter Korpusauschnitte erlaubt.

Die Sprachliche Informationsverarbeitung nimmt hinsichtlich des verfolgten Projektziels eine kritische und doch pragmatische Sichtweise auf bereits existierende Ansätze und Untersuchungen zur automatischen Extraktion semantischer Merkmale aus linguistischen Daten ein.

Pragmatisch ist die gezielte Verwendung bereits untersuchter Heuristiken, wobei deren Ursprung nicht allein linguistisch motiviert sein muss, sondern zugleich allgemeinere Perspektiven der Mathematik und der Informatik in die Untersuchungen miteinbezogen werden. Vor einer softwaretechnologischen Implementierung bestimmter Algorithmen werden diese jeweils hinsichtlich ihrer linguistischen Relevanz und Nutzbarkeit in Relation zum Projektziel evaluiert. Oftmals ergeben sich daraus bereits in der Analysephase eventuell notwendige Extensionen oder Modifizierungen der Basisalgorithmen.

Die kritische Perspektive äußerst sich darin, Heuristiken nicht nur für sich selbst, sondern insbesondere prozessorientiert, d.h. in Kombination mit anderen Heuristiken zu untersuchen. Das in der ersten Projektphase implementierte System SEMALD (System zur Evaluierung Multipler Algorithmen auf Linguistischen Daten) stellt dafür verschiedene Softwarebausteine zur Verfügung, die jeweils bestimmte Algorithmen implementieren. Dazu gehören z.B. verschiedene Verfahren des "Pattern Matching", Komponenten zum Mapping syntaktischer Eigenschaften auf numerische Werte und Varianten neuronaler Netze (z.B. Self Organizing Maps). Diese Bausteine können dann flexibel zu verschiedenen Prozessketten kombiniert werden. SEMALD kann somit auch als ein "Konkurrenzsystem" verwendet werden, bei dem sich die Qualität der Ergebnisse durch die Auswahl des besten Outputs wettstreitender Prozessketten ergibt.

Maalr ist ein Open-Source-Framework zur kollaborativen Erstellung von Online-Wörterbüchern. Lexika und Wörterbücher sind ein zentraler Bestandteil des WWW und gehören nach wie vor zu den meistfrequentierten Angeboten. Viele der bestehenden Wörterbücher bieten Möglichkeiten zur Interaktion. Neben dem Austausch der Nutzer untereinander können oftmals auch vorhandene Einträge kommentiert, Anwendungsbeispiele hinzugefügt, oder aber fehlende Einträge ergänzt werden.

Letztgenannte Funktion steht im Mittelpunkt des Projektes, dessen Ziel es ist ein Open-Source-Framework bereitzustellen, das den kollaborativen Aufbau von lexikalischen Ressourcen durch die Nutzer selbst ermöglicht. Maalr zielt dabei speziell auf kleinere Wörterbuchprojekte, etwa für Kleinsprachen, Dialekte oder auch historische Varietäten, für die keine oder nur wenige Daten vorliegen.