Der Grossteil an heute verfügbarer Information ist in Texten und anderen unstrukturierten Medien gespeichert und deswegen nicht direkt durch Rechner interpretierbar. Hier setzt die Methode des Extractings an: Dabei werden vordefinierte Typen von Informationen aus maschinenlesbaren Dokumenten extrahiert. Extracting ist somit ein Teilgebiet der inhaltlichen Erschliessung, genauer eine Unterkategorie der Indexierung. Dabei wird auf Grundlage von Stichwörtern gearbeitet, im Gegensatz zur Additionsmethode, welche auf Schlagwörtern basiert.

Inhaltsverzeichnis

1 Ziele
2 Arten
3 Ansätze
- 3.1 Intellektuelles Extracting
- 3.2 Automatisches Extracting
4 Verfahren
5 Schwierigkeiten
6 Quellen
7 Weiterführende Literatur
8 Weblinks
- 8.1 Verwandte Begriffe

Ziele

Meistens besteht das Ziel des Extracting darin, Datenbanken mit den gewonnenen Informationen zu füllen um diese weiter zu verarbeiten. Dazu werden oftmals Vorverarbeitungstechniken auf die Texte angewendet, die aus der Zerlegung dessen in Basiseinheiten (Token), dem Erkennen von Satzgrenzen und Wortarten (Part-Of-Speech-Tagging) und das Rückführen der Wörter auf Grundformen (morphologische Zerlegung), ggf. Rechtschreibkorrektur und das Erkennen von Satzteilen (Chunking). Der Erfolg der gewählten Methode wird anhand der Masse Precision und Recall gemessen.

Arten

Informationsextraktion, sprich die Suche nach den relevanten Indikator-Daten, kann in unterschiedlichen Arten geschehen. Diese beinhalten unter anderem:

Topic Detection (Themenextraktion)
Name Extraction (Namensextraktion)
Named Entity Extraction (Begriffsextraktion)
Relation Extraction (Relationsextraktion)
Event Extraction (Ereignisextraktion)
Opinion Mining (Meinungsextraktion)
Sentiment Detection (Extraktion von Emotionen und subjektiven Bewertungen)
Answer Extraction (Antwortextraktion)

Ansätze

Intellektuelles Extracting

Automatisches Extracting

Verfahren

Schwierigkeiten

Quellen

Capurro, Rafael (2000): Einführung in die Informationswissenschaft. Verfügbar unter: http://www.capurro.de/iwmodul5.html [13.11.2014].

Dengel, Andreas (Hrsg.) (2012): Semantische Technologien. Grundlagen-Konzepte-Anwendungen. Heidelberg: Spektrum.

Klügl, Peter; Toepfer Martin (2014): Informationsextraktion. In: Informatik_Spektrum (Nr. 37_2, S. 132-135).

Luckhardt, Heinz-Dirk (2010): Virtuelles Handbuch Informationswissenschaft. Automatische und intellektuelle Indexierung. Verfügbar unter: http://is.uni-sb.de/studium/handbuch/exkurs_ind.html [13.11.2014].

Meyer, Alexander (2012): Extraktion von RDF-Tripeln aus unstrukturierten Wikipedia-Texten. DBpedia erweitern durch Auswertung kompletter Artikeltexte. Verfügbar unter: http://amor.cms.hu-berlin.de/~meyerale/wiki2rdf/Masterarbeit_A_Meyer.pdf [13.11.2014].

Uszkorei, Hans (2009): Informationsextraktion. Information Retrieval. Verfügbar unter: http://www.coli.uni-saarland.de/courses/is-is/slides/VLIWIS_IE_HU.pdf [13.11.2014].

Extracting

Inhaltsverzeichnis

Ziele

Arten

Ansätze

Intellektuelles Extracting

Automatisches Extracting

Verfahren

Schwierigkeiten

Quellen

Weiterführende Literatur

Weblinks

Verwandte Begriffe

Navigationsmenü

Meine Werkzeuge

Namensräume

Varianten

Ansichten

Mehr

Suche

Navigation

Werkzeuge