Version 4.2

Lecture: Wiederherstellung elidierter Morpheme zur Verbesserung der Informationsextraktion

Informationsextraktion (IE) ist ein Verfahren aus der Computerlinguistik, mit dem Terme, die für eine bestimmte Fragestellung relevant sind, in einem unstrukturierten Text identifiziert werden können. Im Projekt „Qualifikationsentwicklungsforschung“ werden Stellenausschreibungen dahingehend untersucht, welche Kompetenzen, Arbeitsmittel und Tätigkeiten im Text erwähnt werden, sodass die entsprechenden Terme extrahiert werden können. Dadurch kann unter anderem das Monitoring des Arbeitsmarkts unterstützt werden. Enthält der als relevant markierte Ausdruck eine Morphemkoordination, so bedarf es im Zuge der IE einer Koordinationsexpansion, damit der vollständige Ausdruck extrahiert werden kann. Beispielsweise kann der Ausdruck „Deutsch- und Englischkenntnisse“ in einer Stellenausschreibung anhand von Mustern als Kompetenz erkannt werden, jedoch extrahiert die herkömmliche IE nicht die darin enthaltene Kompetenz „Deutschkenntnisse“. Koordinierte Ausdrücke müssen dementsprechend expandiert werden, um elidierte Elemente zu ergänzen.
Im Vortrag soll nun zunächst auf das Phänomen der Koordination (Lobin 2006) eingegangen werden, wobei vor allem Morphemkoordinationen im Vordergrund stehen. Dabei wird erläutert, welche theoretischen Hintergründe bei der Expansion der elidierten Wortteile berücksichtigt werden müssen.
Anschließend wird ein regelbasierter Ansatz vorgestellt, bei dem koordinierte Ausdrücke im Zuge der IE expandiert werden. Teilaufgaben stellen dabei die Identifikation von Koordinationen, die morphologische Zerlegung des vollständig realisierten Begriffs sowie die korrekte Zusammensetzung des unvollständig realisierten Begriffs dar.
Die softwaretechnologische Umsetzung ist als Open-Source-Projekt verfügbar und kann so in verschiedenen Projekten eingesetzt werden. Im Rahmen des Projekts „Qualifikationsentwicklungsforschung“ stellt sie ein Modul bei der Verarbeitung von Stellenausschreibungen dar.
Literatur:
Lobin, Henning. 2006. Koordination in Dependenzgrammatiken. in Ágel, Vilmos et all. (eds.). 2006. Dependenz und Valenz: Ein internationales Handbuch der zeitgenössischen Forschung. Berlin, New York: Walter de Gruyter https://doi.org/10.1515/9783110171525.2.7.973 .

Info

Day: 2019-05-25
Start time: 14:30
Duration: 00:30
Room: 100 / Hörsaal V
Track: Computational Linguistics
Language: de

Links:

Files

Feedback

Click here to let us know how you liked this event.

Concurrent Events