zum Inhalt springen

Informationsextraktion aus Stellenanzeigen

Informationsextraktion aus einem Korpus natürlichsprachlicher Anzeigentexte

Projektverantwortlicher:

Dr. Jürgen Hermes
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln

Gefördert durch:

Bundesinstitut für Berufliche Bildung (BIBB)

Förderzeitraum:

05/2014 - 11/2014

ProjektmitarbeiterInnen:

Alena Geduldig, Mandy Neumann, Andreas Vogt

Abschlussdokumentation:

Mandy Neumann (Masterarbeit, 2015):"Analyse von Anforderungsprofilen. Eine Studie zur Informationsextraktion aus Stellenanzeigen."

Hermes, Jürgen & Manuel Schandock (2016): "Stellenanzeigenanalyse in der  Qualifikationsentwicklungsforschung.  Die Nutzung maschineller Lernverfahren zur Klassifikation von Textabschnitten." In: Fachbeiträge in Internet, Bundesinstitut für Berufsbildung. 

Verwendet Technologie aus:

Tesla

Wird wiederverwendet in:

Qualifikationsentwicklungsforschung

Beschreibung:

Das BIBB verfügt über eine große Datenbank von Stellenanzeigen. Die einzelnen Stellenanzeigen bestehen aus einem unstrukturierten Volltext, dem bereits strukturierte Meta-Informationen (Ort/Region, Datum etc.) zugeordnet sind. Bei der Auswertung der Stellenanzeigen geht es zunächst darum, aus den Volltexten weitere strukturierte Informationen zu gewinnen, um die per Datenabfrage auf der Datenbank zugänglichen Daten zu erweitern. Ein erfreulicher Nebeneffekt dieser Codierung ist, dass die Informationen aus den Volltexten der Stellenanzeigen, die möglicherweise strengen Datenschutzauflagen unterliegen, auf diese Weise anonymisiert werden können.

Für die Verarbeitung textueller Daten wird das an der  Sprachlichen Informationsverarbeitung  entwickelte Workflow-Management-System Tesla genutzt, in dem sich konkurrierende Verfahren des Text Mining gegeneinander evaluieren und anschließend produktiv einsetzen lassen. 

Zum Zwecke der Informationsextraktion (IE) werden sogenannte Templates entworfen, die über Extraktionsalgorithmen gefüllt werden. Aus Templates gewonnene Datenbankobjekte bestehen aus Slots, in die Werte für vorgegebene Attribute eingetragen werden. Beispiele für derartige Slots führt der Auftraggeber (BIBB) in der Beschreibung der zu erbringenden Dienstleistung aus. 

Im vorliegenden Fall können die Templates bereits teilweise durch die vorhandenen Metainformationen gefüllt werden. Im Anschluss daran werden die Volltexte der Stellenanzeigen ausgewertet. Dies kann mit unterschiedlichen Ansätzen erfolgen. Auch wenn die Texte nicht vollkommen durchstrukturiert sind, kommen sie doch aus einer sehr eingeschränkten Domäne (Stellenanzeigen), in der bestimmte Muster immer wieder auftauchen werden. Diese Muster werden über die Anwendung regulärer Ausdrücke extrahiert, so dass weitere Slots der Templates automatisch gefüllt werden.

Konkurrierend dazu werden Ansätze des maschinellen Lernens verfolgt, die auf unterschiedlich stark vorprozessierten Daten angewendet werden. Für die Vorprozessierung stehen im System Tesla unterschiedliche, miteinander verschaltbare Komponenten (Tokenizer, POS-Tagger, Morph-Tagger, Dependenzparser, Koreferenz-Auflöser) zur Verfügung. Weitere Werkzeuge extrahieren bestimmte Token aus dem Eingabetext und bilden sie auf die Werte bestimmter Slots der vorher entworfenen Templates ab. In der überwachten Variante des maschinellen Lernens (die für diese Anwendung in Frage kommt) wird anhand von Trainingsdaten - einem Set von manuell extrahierten Templates - ein Modell gebildet, das auf weitere Daten angewendet werden kann.

Um die Ausbeute der IE zu erhöhen, wird der Suchraum für die zu extrahierenden Informationen eingegrenzt. Stellenanzeigen weisen oft eine interne Gliederung in Abschnitte auf, die klassifiziert (Textklassifikation) und von überwachten maschinellen Lernverfahren weiterverarbeitet werden:

  • Selbstvorstellung des Unternehmens („Wer sind wir?“)
  • Informationen zur ausgeschriebenen Stelle („Was bieten wir?“)
  • Anforderungen an den Bewerber („Was sollte der/die Bewerber/in beherrschen?“)

Ziel dieses Vorgehens ist, die Kombination aus Merkmalsextraktion und Klassifikationsalgorithmus zu finden, welche die beste Performance liefert. Diese experimentell ermittelte Kombination kann im Anschluss produktiv auf nicht vorausgezeichnete Daten angewendet werden.

 

Ziel des Projekts Selbstorganisierendes semantisches Wissen ist es, das Bedeutungspotential sprachlicher Zeichen durch ein selbstlernendes System zu erfassen.

Selbstorganisierendes semantisches Wissen

1950 beschrieb der geniale englische Mathematiker Alan Turing in der Zeitschrift Mind den später nach ihm benannten Test. Der Turing-Test ist ein Gedankenspiel, das im Grunde genommen das Ein/Ausgabeverhalten einer Maschine dann als intelligent beschreibt, wenn einem menschlichen Mitspieler nicht auffällt, daß der Spielpartner kein Mensch ist. Der Turing-Test ist durch Weizenbaum und durch Searle kritisch untersucht worden. Weizenbaum karikierte ihn durch sein Programm Eliza; Eliza simuliert durch bloßes Pattern-Matching einen Dialog zwischen Mensch und Maschine mit teilweise erstaunlichen Resultaten.

Der kalifornische Philosoph und Sprachwissenschaftler John Searle ersann das Gedankenexperiment des Chinesischen Zimmers, dessen Bewohner nur Englisch spricht, Karten mit chinesischen Schriftzeichen und eine englischsprachige Anleitung zur deren Kombinatorik besitzt. Wird nun eine chinesische Frage als Folge von Karten in das Zimmer geschickt, so kann der Bewohner des Zimmers diese Frage mit Hilfe der Karten und der Anleitung beantworten und nach außen den Eindruck erwecken, er könne Chinesisch und habe die Frage tatsächlich verstanden. Searle vergleicht das Verhalten des Bewohners mit regelbasierten sprach- und wissensverarbeitenden Systemen, die rein syntaktisch ohne auf Bedeutung Bezug zu nehmen operieren und mitunter in ihren Ergebnissen Anforderungen etwa des Turing-Tests genügen können.

Die Unzulänglichkeit regelbasierter Systeme zeigt sich auch praktisch im Umgang mit digitalen Texten, deren Umfang in den letzten Jahren enorm zugenommen hat.

Verfahren des Mustervergleichs (Pattern Matching) oder der rein syntaktischen Verarbeitung vermögen diese Texte nicht hinreichend zu erschließen. Auszeichnungswerkzeuge, die beispielsweise im Semantic Web zum Einsatz kommen, haben einige Nachteile: Die von einem menschlichen Bearbeiter vorzunehmende Auszeichnung ('Mark up') ist aufwendig. Angesichts der quantitativen Anforderungen ist es außerordentlich schwierig, die Auszeichnungen konsistent zu halten. Schließlich fixiert der Bearbeiter eine Bedeutung auch dann, wenn es mehrere gibt. Die Beziehung zwischen der Ausdrucksseite eines sprachlichen Zeichens und seinem Inhalt wird nicht allein normiert, sondern auch verengt. Das Bedeutungspotential sprachlicher Ausdrücke wird damit nicht erfaßt. Die Flexibilität, Anpaßbarkeit und somit Ökonomie menschlicher Sprache beruht jedoch auf dem Bedeutungspotential der sprachlichen Zeichen.

Ziel des Projekts Selbstorganisierendes semantisches Wissen ist es, das Bedeutungspotential sprachlicher Zeichen durch ein selbstlernendes System zu erfassen. In der inzwischen abgeschlossenen ersten Projektphase galt es zunächst eine technische Infrastruktur, entsprechend des im Projektantrag formulierten Projektziels, bereitzustellen. Dazu zählte u.a. der Aufbau eines mehrsprachigen Korpus linguistischer Rohdaten und eines Systems, das eine Evaluierung unterschiedlicher Algorithmen und Algorithmenketten zur Extraktion semantisch verwertbarer Merkmale auf Grundlage des Korpus bzw. ausgewählter Korpusauschnitte erlaubt.

Die Sprachliche Informationsverarbeitung nimmt hinsichtlich des verfolgten Projektziels eine kritische und doch pragmatische Sichtweise auf bereits existierende Ansätze und Untersuchungen zur automatischen Extraktion semantischer Merkmale aus linguistischen Daten ein.

Pragmatisch ist die gezielte Verwendung bereits untersuchter Heuristiken, wobei deren Ursprung nicht allein linguistisch motiviert sein muss, sondern zugleich allgemeinere Perspektiven der Mathematik und der Informatik in die Untersuchungen miteinbezogen werden. Vor einer softwaretechnologischen Implementierung bestimmter Algorithmen werden diese jeweils hinsichtlich ihrer linguistischen Relevanz und Nutzbarkeit in Relation zum Projektziel evaluiert. Oftmals ergeben sich daraus bereits in der Analysephase eventuell notwendige Extensionen oder Modifizierungen der Basisalgorithmen.

Die kritische Perspektive äußerst sich darin, Heuristiken nicht nur für sich selbst, sondern insbesondere prozessorientiert, d.h. in Kombination mit anderen Heuristiken zu untersuchen. Das in der ersten Projektphase implementierte System SEMALD (System zur Evaluierung Multipler Algorithmen auf Linguistischen Daten) stellt dafür verschiedene Softwarebausteine zur Verfügung, die jeweils bestimmte Algorithmen implementieren. Dazu gehören z.B. verschiedene Verfahren des "Pattern Matching", Komponenten zum Mapping syntaktischer Eigenschaften auf numerische Werte und Varianten neuronaler Netze (z.B. Self Organizing Maps). Diese Bausteine können dann flexibel zu verschiedenen Prozessketten kombiniert werden. SEMALD kann somit auch als ein "Konkurrenzsystem" verwendet werden, bei dem sich die Qualität der Ergebnisse durch die Auswahl des besten Outputs wettstreitender Prozessketten ergibt.
Ziel des Projekts Selbstorganisierendes semantisches Wissen ist es, das Bedeutungspotential sprachlicher Zeichen durch ein selbstlernendes System zu erfassen.

Selbstorganisierendes semantisches Wissen

1950 beschrieb der geniale englische Mathematiker Alan Turing in der Zeitschrift Mind den später nach ihm benannten Test. Der Turing-Test ist ein Gedankenspiel, das im Grunde genommen das Ein/Ausgabeverhalten einer Maschine dann als intelligent beschreibt, wenn einem menschlichen Mitspieler nicht auffällt, daß der Spielpartner kein Mensch ist. Der Turing-Test ist durch Weizenbaum und durch Searle kritisch untersucht worden. Weizenbaum karikierte ihn durch sein Programm Eliza; Eliza simuliert durch bloßes Pattern-Matching einen Dialog zwischen Mensch und Maschine mit teilweise erstaunlichen Resultaten.

Der kalifornische Philosoph und Sprachwissenschaftler John Searle ersann das Gedankenexperiment des Chinesischen Zimmers, dessen Bewohner nur Englisch spricht, Karten mit chinesischen Schriftzeichen und eine englischsprachige Anleitung zur deren Kombinatorik besitzt. Wird nun eine chinesische Frage als Folge von Karten in das Zimmer geschickt, so kann der Bewohner des Zimmers diese Frage mit Hilfe der Karten und der Anleitung beantworten und nach außen den Eindruck erwecken, er könne Chinesisch und habe die Frage tatsächlich verstanden. Searle vergleicht das Verhalten des Bewohners mit regelbasierten sprach- und wissensverarbeitenden Systemen, die rein syntaktisch ohne auf Bedeutung Bezug zu nehmen operieren und mitunter in ihren Ergebnissen Anforderungen etwa des Turing-Tests genügen können.

Die Unzulänglichkeit regelbasierter Systeme zeigt sich auch praktisch im Umgang mit digitalen Texten, deren Umfang in den letzten Jahren enorm zugenommen hat.

Verfahren des Mustervergleichs (Pattern Matching) oder der rein syntaktischen Verarbeitung vermögen diese Texte nicht hinreichend zu erschließen. Auszeichnungswerkzeuge, die beispielsweise im Semantic Web zum Einsatz kommen, haben einige Nachteile: Die von einem menschlichen Bearbeiter vorzunehmende Auszeichnung ('Mark up') ist aufwendig. Angesichts der quantitativen Anforderungen ist es außerordentlich schwierig, die Auszeichnungen konsistent zu halten. Schließlich fixiert der Bearbeiter eine Bedeutung auch dann, wenn es mehrere gibt. Die Beziehung zwischen der Ausdrucksseite eines sprachlichen Zeichens und seinem Inhalt wird nicht allein normiert, sondern auch verengt. Das Bedeutungspotential sprachlicher Ausdrücke wird damit nicht erfaßt. Die Flexibilität, Anpaßbarkeit und somit Ökonomie menschlicher Sprache beruht jedoch auf dem Bedeutungspotential der sprachlichen Zeichen.

Ziel des Projekts Selbstorganisierendes semantisches Wissen ist es, das Bedeutungspotential sprachlicher Zeichen durch ein selbstlernendes System zu erfassen. In der inzwischen abgeschlossenen ersten Projektphase galt es zunächst eine technische Infrastruktur, entsprechend des im Projektantrag formulierten Projektziels, bereitzustellen. Dazu zählte u.a. der Aufbau eines mehrsprachigen Korpus linguistischer Rohdaten und eines Systems, das eine Evaluierung unterschiedlicher Algorithmen und Algorithmenketten zur Extraktion semantisch verwertbarer Merkmale auf Grundlage des Korpus bzw. ausgewählter Korpusauschnitte erlaubt.

Die Sprachliche Informationsverarbeitung nimmt hinsichtlich des verfolgten Projektziels eine kritische und doch pragmatische Sichtweise auf bereits existierende Ansätze und Untersuchungen zur automatischen Extraktion semantischer Merkmale aus linguistischen Daten ein.

Pragmatisch ist die gezielte Verwendung bereits untersuchter Heuristiken, wobei deren Ursprung nicht allein linguistisch motiviert sein muss, sondern zugleich allgemeinere Perspektiven der Mathematik und der Informatik in die Untersuchungen miteinbezogen werden. Vor einer softwaretechnologischen Implementierung bestimmter Algorithmen werden diese jeweils hinsichtlich ihrer linguistischen Relevanz und Nutzbarkeit in Relation zum Projektziel evaluiert. Oftmals ergeben sich daraus bereits in der Analysephase eventuell notwendige Extensionen oder Modifizierungen der Basisalgorithmen.

Die kritische Perspektive äußerst sich darin, Heuristiken nicht nur für sich selbst, sondern insbesondere prozessorientiert, d.h. in Kombination mit anderen Heuristiken zu untersuchen. Das in der ersten Projektphase implementierte System SEMALD (System zur Evaluierung Multipler Algorithmen auf Linguistischen Daten) stellt dafür verschiedene Softwarebausteine zur Verfügung, die jeweils bestimmte Algorithmen implementieren. Dazu gehören z.B. verschiedene Verfahren des "Pattern Matching", Komponenten zum Mapping syntaktischer Eigenschaften auf numerische Werte und Varianten neuronaler Netze (z.B. Self Organizing Maps). Diese Bausteine können dann flexibel zu verschiedenen Prozessketten kombiniert werden. SEMALD kann somit auch als ein "Konkurrenzsystem" verwendet werden, bei dem sich die Qualität der Ergebnisse durch die Auswahl des besten Outputs wettstreitender Prozessketten ergibt.

Maalr ist ein Open-Source-Framework zur kollaborativen Erstellung von Online-Wörterbüchern. Lexika und Wörterbücher sind ein zentraler Bestandteil des WWW und gehören nach wie vor zu den meistfrequentierten Angeboten. Viele der bestehenden Wörterbücher bieten Möglichkeiten zur Interaktion. Neben dem Austausch der Nutzer untereinander können oftmals auch vorhandene Einträge kommentiert, Anwendungsbeispiele hinzugefügt, oder aber fehlende Einträge ergänzt werden.

Letztgenannte Funktion steht im Mittelpunkt des Projektes, dessen Ziel es ist ein Open-Source-Framework bereitzustellen, das den kollaborativen Aufbau von lexikalischen Ressourcen durch die Nutzer selbst ermöglicht. Maalr zielt dabei speziell auf kleinere Wörterbuchprojekte, etwa für Kleinsprachen, Dialekte oder auch historische Varietäten, für die keine oder nur wenige Daten vorliegen.