Extracting: Unterschied zwischen den Versionen

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Zur Navigation springen Zur Suche springen
Zeile 19: Zeile 19:
  
 
=Ansätze=
 
=Ansätze=
 +
 +
Die Informationsextraktion kann mit Knowledge-Engineering- Ansätzen oder über automatisch trainierbare Lernverfahren umgesetzt werden. In der Realität sind meist gemischte Formen populär, welche die jeweiligen Stärken und Schwächen kombinieren. Die Technologie ist noch sehr domänen- und sprachabhängig und so können viele Ansätze nicht ohne weiteres aus dem Englischen auf andere Sprachen übertragen werden.
  
 
==Intellektuelles Extracting==
 
==Intellektuelles Extracting==
 +
 +
Beim Knowledge-Engineering-Ansatz erstellen Menschen Regeln und Muster zur Extraktion von Information aus Texten. Dies basiert oft auf kaskadierenden Regel-Grammatiken, wobei der Engineer eine Menge von Regeln definiert, welche aus dem regulären Ausdruck über die Eigenschaften des Textes bestehen, beispielsweise Einträge eines Wörterbuches oder von Wortklassen. Werden diese Muster im Text erkannt, wird der entsprechenden Textstelle eine Entität oder eine Relation zugewiesen. Es werden meist mehrere aufeinander aufbauende Grammatiken verwendet, welche komplexere Eigenschaften oder Entitäten für spätere Phasen herleiten.
 +
Herausforderungen umfassen die Definition einer standardisierten Regelsprache, welche Vorteile für die Forschung und Anwendungen mit sich bringen würde. Diese müsste ausreichend ausdrucksmächtig sein, eine deklarative Natur, sowie Erweiterbarkeit besitzen.
 +
  
 
==Automatisches Extracting==
 
==Automatisches Extracting==
 +
 +
Beim automatischen Extracting werden zu allen Textstellen manuelle Annotationen hinzugefügt, woraus die Lernverfahren Modelle generieren, um Informationen aus ähnlichen, unbekannten Texten zu extrahieren. Es wird also aus den bearbeiteten Beispieldokumenten automatisch gelernt. Die Voraussetzung dazu bildet das Vorhandensein einer ausreichend grossen Stichprobe von repräsentativen Dokumenten der Domäne und die Annotationen der Texte mit den gesuchten Informationstypen.
  
 
=Verfahren=
 
=Verfahren=

Version vom 15. November 2014, 13:46 Uhr

Der Grossteil an heute verfügbarer Information ist in Texten und anderen unstrukturierten Medien gespeichert und deswegen nicht direkt durch Rechner interpretierbar. Hier setzt die Methode des Extractings an: Dabei werden vordefinierte Typen von Informationen aus maschinenlesbaren Dokumenten extrahiert. Extracting ist somit ein Teilgebiet der inhaltlichen Erschliessung, genauer eine Unterkategorie der Indexierung. Dabei wird auf Grundlage von Stichwörtern gearbeitet, im Gegensatz zur Additionsmethode, welche auf Schlagwörtern basiert.

Ziele

Meistens besteht das Ziel des Extracting darin, Datenbanken mit den gewonnenen Informationen zu füllen um diese weiter zu verarbeiten. Dazu werden oftmals Vorverarbeitungstechniken auf die Texte angewendet, die aus der Zerlegung dessen in Basiseinheiten (Token), dem Erkennen von Satzgrenzen und Wortarten (Part-Of-Speech-Tagging) und das Rückführen der Wörter auf Grundformen (morphologische Zerlegung), ggf. Rechtschreibkorrektur und das Erkennen von Satzteilen (Chunking). Der Erfolg der gewählten Methode wird anhand der Masse Precision und Recall gemessen.

Arten

Informationsextraktion, sprich die Suche nach den relevanten Indikator-Daten, kann in unterschiedlichen Arten geschehen. Diese beinhalten unter anderem:

  • Topic Detection (Themenextraktion)
  • Name Extraction (Namensextraktion)
  • Named Entity Extraction (Begriffsextraktion)
  • Relation Extraction (Relationsextraktion)
  • Event Extraction (Ereignisextraktion)
  • Opinion Mining (Meinungsextraktion)
  • Sentiment Detection (Extraktion von Emotionen und subjektiven Bewertungen)
  • Answer Extraction (Antwortextraktion)

Ansätze

Die Informationsextraktion kann mit Knowledge-Engineering- Ansätzen oder über automatisch trainierbare Lernverfahren umgesetzt werden. In der Realität sind meist gemischte Formen populär, welche die jeweiligen Stärken und Schwächen kombinieren. Die Technologie ist noch sehr domänen- und sprachabhängig und so können viele Ansätze nicht ohne weiteres aus dem Englischen auf andere Sprachen übertragen werden.

Intellektuelles Extracting

Beim Knowledge-Engineering-Ansatz erstellen Menschen Regeln und Muster zur Extraktion von Information aus Texten. Dies basiert oft auf kaskadierenden Regel-Grammatiken, wobei der Engineer eine Menge von Regeln definiert, welche aus dem regulären Ausdruck über die Eigenschaften des Textes bestehen, beispielsweise Einträge eines Wörterbuches oder von Wortklassen. Werden diese Muster im Text erkannt, wird der entsprechenden Textstelle eine Entität oder eine Relation zugewiesen. Es werden meist mehrere aufeinander aufbauende Grammatiken verwendet, welche komplexere Eigenschaften oder Entitäten für spätere Phasen herleiten. Herausforderungen umfassen die Definition einer standardisierten Regelsprache, welche Vorteile für die Forschung und Anwendungen mit sich bringen würde. Diese müsste ausreichend ausdrucksmächtig sein, eine deklarative Natur, sowie Erweiterbarkeit besitzen.


Automatisches Extracting

Beim automatischen Extracting werden zu allen Textstellen manuelle Annotationen hinzugefügt, woraus die Lernverfahren Modelle generieren, um Informationen aus ähnlichen, unbekannten Texten zu extrahieren. Es wird also aus den bearbeiteten Beispieldokumenten automatisch gelernt. Die Voraussetzung dazu bildet das Vorhandensein einer ausreichend grossen Stichprobe von repräsentativen Dokumenten der Domäne und die Annotationen der Texte mit den gesuchten Informationstypen.

Verfahren

Schwierigkeiten

Quellen

  • Dengel, Andreas (Hrsg.) (2012): Semantische Technologien. Grundlagen-Konzepte-Anwendungen. Heidelberg: Spektrum.
  • Klügl, Peter; Toepfer Martin (2014): Informationsextraktion. In: Informatik_Spektrum (Nr. 37_2, S. 132-135).


Weiterführende Literatur

Weblinks

Verwandte Begriffe