Extracting: Unterschied zwischen den Versionen
(37 dazwischenliegende Versionen von 2 Benutzern werden nicht angezeigt) | |||
Zeile 1: | Zeile 1: | ||
− | Der Grossteil an heute verfügbarer Information ist in Texten und anderen unstrukturierten Medien gespeichert und deswegen nicht direkt durch Rechner interpretierbar. Hier setzt die Methode des Extractings an: Dabei werden vordefinierte Typen von Informationen aus maschinenlesbaren Dokumenten extrahiert. Extracting ist somit ein Teilgebiet der inhaltlichen Erschliessung, genauer eine Unterkategorie der [[Indexierung]]. Dabei wird auf Grundlage von Stichwörtern gearbeitet, im Gegensatz zur [[Additionsmethode]], welche auf Schlagwörtern basiert. | + | ==Definition== |
+ | Der Grossteil an heute verfügbarer Information ist in Texten und anderen unstrukturierten Medien gespeichert und deswegen nicht direkt durch Rechner interpretierbar. Hier setzt die Methode des Extractings an: Dabei werden vordefinierte Typen von Informationen aus maschinenlesbaren Dokumenten extrahiert. [[definition::Extracting ist somit ein Teilgebiet der inhaltlichen Erschliessung, genauer eine Unterkategorie der [[Indexierung]]. Dabei wird auf Grundlage von [[Stichwort|Stichwörtern]] gearbeitet, im Gegensatz zur [[Additionsmethode]], welche auf [[Schlagwort|Schlagwörtern]] basiert.]] | ||
− | =Ziele= | + | ==Ziele== |
− | + | Meist besteht das Ziel des Extracting darin, [[Datenbank|Datenbanken]] mit den gewonnenen Informationen zu füllen um diese weiter zu verarbeiten. Dazu werden oftmals Vorverarbeitungstechniken auf die Texte angewendet, wie die Zerlegung dessen in Basiseinheiten (Token), dem Erkennen von Satzgrenzen und Wortarten (Part-Of-Speech-Tagging) das Rückführen der Wörter auf Grundformen ([[Morphologie|morphologische]] Zerlegung), ggf. Rechtschreibkorrekturen, sowie das Erkennen von Satzteilen (Chunking). Der Erfolg der gewählten Methode wird anhand der Masse [[Precision]] und [[Recall]] gemessen. | |
− | =Arten= | + | ==Arten== |
Informationsextraktion, sprich die Suche nach den relevanten Indikator-Daten, kann in unterschiedlichen Arten geschehen. Diese beinhalten unter anderem: | Informationsextraktion, sprich die Suche nach den relevanten Indikator-Daten, kann in unterschiedlichen Arten geschehen. Diese beinhalten unter anderem: | ||
Zeile 18: | Zeile 19: | ||
* Answer Extraction (Antwortextraktion) | * Answer Extraction (Antwortextraktion) | ||
− | =Ansätze= | + | ==Ansätze== |
− | Die Informationsextraktion kann mit Knowledge-Engineering- Ansätzen oder über automatisch trainierbare Lernverfahren umgesetzt werden. In der Realität sind meist gemischte Formen populär, welche die jeweiligen Stärken und Schwächen kombinieren. Die Technologie ist noch sehr domänen- und sprachabhängig und so können viele Ansätze nicht ohne weiteres aus dem Englischen auf andere Sprachen übertragen werden. | + | Die Informationsextraktion kann mit [[Knowledge Engineering|Knowledge-Engineering]]- Ansätzen oder über automatisch trainierbare Lernverfahren umgesetzt werden. In der Realität sind meist gemischte Formen populär, welche die jeweiligen Stärken und Schwächen kombinieren. Die Technologie ist noch sehr domänen- und sprachabhängig und so können viele Ansätze nicht ohne weiteres aus dem Englischen auf andere Sprachen übertragen werden. |
− | ==Intellektuelles Extracting== | + | ===Intellektuelles Extracting=== |
Beim Knowledge-Engineering-Ansatz erstellen Menschen Regeln und Muster zur Extraktion von Information aus Texten. Dies basiert oft auf kaskadierenden Regel-Grammatiken, wobei der Engineer eine Menge von Regeln definiert, welche aus dem regulären Ausdruck über die Eigenschaften des Textes bestehen, beispielsweise Einträge eines Wörterbuches oder von Wortklassen. Werden diese Muster im Text erkannt, wird der entsprechenden Textstelle eine Entität oder eine Relation zugewiesen. Es werden meist mehrere aufeinander aufbauende Grammatiken verwendet, welche komplexere Eigenschaften oder Entitäten für spätere Phasen herleiten. | Beim Knowledge-Engineering-Ansatz erstellen Menschen Regeln und Muster zur Extraktion von Information aus Texten. Dies basiert oft auf kaskadierenden Regel-Grammatiken, wobei der Engineer eine Menge von Regeln definiert, welche aus dem regulären Ausdruck über die Eigenschaften des Textes bestehen, beispielsweise Einträge eines Wörterbuches oder von Wortklassen. Werden diese Muster im Text erkannt, wird der entsprechenden Textstelle eine Entität oder eine Relation zugewiesen. Es werden meist mehrere aufeinander aufbauende Grammatiken verwendet, welche komplexere Eigenschaften oder Entitäten für spätere Phasen herleiten. | ||
− | Herausforderungen | + | Die Herausforderungen umfasst die Definition einer standardisierten Regelsprache, welche Vorteile für die Forschung und Anwendungen mit sich bringen würde. Diese müsste ausreichend ausdrucksmächtig sein, eine deklarative Natur, sowie Erweiterbarkeit besitzen. |
+ | ===Automatisches Extracting=== | ||
− | + | Beim automatischen Extracting werden zu allen Textstellen manuelle [[Annotation|Annotationen]] hinzugefügt, woraus Modelle generiert werden, um Informationen aus ähnlichen, unbekannten Texten zu extrahieren. Es wird dabei aus den bearbeiteten Beispieldokumenten automatisch gelernt. Die Voraussetzung dazu bildet das Vorhandensein einer ausreichend grossen Stichprobe von repräsentativen Dokumenten der Domäne und die Annotationen der Texte mit den gesuchten Informationstypen. | |
− | + | ==Verfahren== | |
− | + | Bei den Verfahren zur Extraktion handelt es sich im wesentlichen um freitext- und wortorientierte Verfahren. Da maschinelle Sprachverarbeitungsverfahren (natural Language processing, NLP) nicht in der Lage sind die Inhalte der Texte zu verstehen, versucht man diese mittels verschiedener formaler Kenntnisse zu unterstützen, welche der Maschine übermittelt werden. | |
− | = | + | ===Syntaktische Analyse=== |
− | + | Die [[Syntax|syntaktische]] Analyse besteht im wesentlichen aus: | |
− | * | + | * Textextraktion: Extraktion des Fliesstextes mittels Eliminierung sämtlicher Auszeichnungen zur Formatierung. |
+ | * Spracherkennung: Um auf einzelne Sprachen abgestimmte Verfahren wählen zu können, wird auf Spracherkennung gesetzt. | ||
+ | * Segmentierung von Wörtern: Unterteilung des Textes in Segmente, deren kleinste Einheit Wörter sind, was in europäischen Sprachen einfach, in asiatischen jedoch komplizierte Verfahren bedeutet. | ||
+ | * Segmentierung von Sätzen: Regeln und Heuristiken zur Erkennung von Satzenden und vor allem unter Berücksichtigung von Klammerausdrücken und Abkürzungen definieren. | ||
+ | * Part-of-Speech-Tagging: Anreicherung von Wörtern eines Textes mit Informationen über deren Bedeutung innerhalb von Satzgrenzen in Form von Wortarten. | ||
+ | * Erkennung von Phrasen: Den Zusammenhang zwischen einzelnen Wörtern eines Satzes herstellen. | ||
− | + | ===Semantische Analyse=== | |
− | + | Die erkannten syntaktischen Strukturen werden auf ihren eigentlichen Bedeutungsinhalt analysiert. Dabei geht es primär um das Erkennen von Entitäten, also Personen, Organisationen oder Orte. | |
− | + | Die [[Semantik|semantische]] Analyse besteht im wesentlichen aus: | |
− | * | + | * Benannten Entitäten |
+ | * Strukturierten Entitäten | ||
+ | * Koreferenzanalyse: Wenn in einem Text verschiedenen sprachliche Segmente auf die gleiche Entität verweisen, spricht man von Koreferenz: Somit versucht man Koreferenzketten aufzulösen. | ||
+ | * Auflösung sprachlicher Mehrdeutigkeit | ||
− | + | ==Schwierigkeiten== | |
+ | Die Schwierigkeiten, die sich bei der Informationsextraktion ergeben, liegen in der Natur des Freitextes. Dies umfasst unter anderem folgende Phänomene: | ||
− | + | * Die selbe Entität kann unterschiedlich benannt werden. | |
+ | * Auf bereits benannte Entitäten oder Aussagen kann mithilfe von Anaphern Bezug genommen werden. | ||
+ | * Die grammatikalischen Rollen der Entitäten in Aussagen sind nicht markiert sondern ergeben sich aus der morphologischsyntaktischen Struktur eines Satzes: Flexionsendungen, Wortstellung, Präposition etc. deuten auf diese hin, sind jedoch unverständlich ohne vorheriges Wissen über deren Bedeutung. | ||
+ | * Ein [[Lemmatisierung|Lemma]] kann durch Flexionsendungen unterschiedliche Gestalt annehmen. | ||
+ | * Aussagen können mit unterschiedlichem Vokabular gemacht werden. | ||
+ | * Es existieren Haupt- und Nebensätze, sowie andere Satz- und Teilsatzstrukturen mit unterschiedlicher Syntax. | ||
+ | * Trotz standardisierter Rechtschreibung und Grammatik existieren in der Realität Fehler. | ||
− | = | + | ==Quellen== |
+ | *Capurro, Rafael (2000): ''Einführung in die Informationswissenschaft.'' Verfügbar unter: http://www.capurro.de/iwmodul5.html [13.11.2014]. | ||
+ | |||
+ | *Dengel, Andreas (Hrsg.) (2012): ''Semantische Technologien. Grundlagen-Konzepte-Anwendungen.'' Heidelberg: Spektrum. | ||
+ | |||
+ | *Klügl, Peter; Toepfer Martin (2014): ''Informationsextraktion.'' In: ''Informatik_Spektrum'' (Nr. 37_2, S. 132-135). | ||
+ | |||
+ | *Luckhardt, Heinz-Dirk (2010): ''Virtuelles Handbuch Informationswissenschaft. Automatische und intellektuelle Indexierung.'' Verfügbar unter: http://is.uni-sb.de/studium/handbuch/exkurs_ind.html [13.11.2014]. | ||
+ | |||
+ | *Meyer, Alexander (2012): ''Extraktion von RDF-Tripeln aus unstrukturierten Wikipedia-Texten. DBpedia erweitern durch Auswertung kompletter Artikeltexte.'' Verfügbar unter: http://amor.cms.hu-berlin.de/~meyerale/wiki2rdf/Masterarbeit_A_Meyer.pdf [13.11.2014]. | ||
+ | |||
+ | *Uszkorei, Hans (2009): ''Informationsextraktion. Information Retrieval.'' Verfügbar unter: http://www.coli.uni-saarland.de/courses/is-is/slides/VLIWIS_IE_HU.pdf [13.11.2014]. | ||
+ | |||
+ | ==Weiterführende Literatur== | ||
+ | |||
+ | * Salton, Gerard; McGill, Michael J. (1987): ''Information Retrieval. Grundlegendes für Informationswissenschaftler.'' Hamburg: McGraw-Hill. | ||
+ | |||
+ | * Knorz, G. (1997). ''Indexieren, Klassieren, Extrahieren.'' In: Buder;Rehfeld;Seeger;Strauch (Hrsg.): ''Grundlagen der praktischen Information und Dokumentation.'' München: K.G. Saur. (S.120-140). | ||
+ | |||
+ | ==Weblinks== | ||
+ | |||
+ | * http://de.wikipedia.org/wiki/Informationsextraktion | ||
==Verwandte Begriffe== | ==Verwandte Begriffe== | ||
Zeile 66: | Zeile 104: | ||
* [[synonymous::Extraktionsmethode]] | * [[synonymous::Extraktionsmethode]] | ||
* [[synonymous::Extrahieren]] | * [[synonymous::Extrahieren]] | ||
+ | |||
+ | * [[english::extracting]] | ||
[[category:Informationsarbeit]] | [[category:Informationsarbeit]] | ||
[[category:Wissensrepräsentation]] | [[category:Wissensrepräsentation]] |
Aktuelle Version vom 31. Dezember 2014, 14:37 Uhr
Inhaltsverzeichnis
Definition
Der Grossteil an heute verfügbarer Information ist in Texten und anderen unstrukturierten Medien gespeichert und deswegen nicht direkt durch Rechner interpretierbar. Hier setzt die Methode des Extractings an: Dabei werden vordefinierte Typen von Informationen aus maschinenlesbaren Dokumenten extrahiert. Extracting ist somit ein Teilgebiet der inhaltlichen Erschliessung, genauer eine Unterkategorie der Indexierung. Dabei wird auf Grundlage von Stichwörtern gearbeitet, im Gegensatz zur Additionsmethode, welche auf Schlagwörtern basiert.
Ziele
Meist besteht das Ziel des Extracting darin, Datenbanken mit den gewonnenen Informationen zu füllen um diese weiter zu verarbeiten. Dazu werden oftmals Vorverarbeitungstechniken auf die Texte angewendet, wie die Zerlegung dessen in Basiseinheiten (Token), dem Erkennen von Satzgrenzen und Wortarten (Part-Of-Speech-Tagging) das Rückführen der Wörter auf Grundformen (morphologische Zerlegung), ggf. Rechtschreibkorrekturen, sowie das Erkennen von Satzteilen (Chunking). Der Erfolg der gewählten Methode wird anhand der Masse Precision und Recall gemessen.
Arten
Informationsextraktion, sprich die Suche nach den relevanten Indikator-Daten, kann in unterschiedlichen Arten geschehen. Diese beinhalten unter anderem:
- Topic Detection (Themenextraktion)
- Name Extraction (Namensextraktion)
- Named Entity Extraction (Begriffsextraktion)
- Relation Extraction (Relationsextraktion)
- Event Extraction (Ereignisextraktion)
- Opinion Mining (Meinungsextraktion)
- Sentiment Detection (Extraktion von Emotionen und subjektiven Bewertungen)
- Answer Extraction (Antwortextraktion)
Ansätze
Die Informationsextraktion kann mit Knowledge-Engineering- Ansätzen oder über automatisch trainierbare Lernverfahren umgesetzt werden. In der Realität sind meist gemischte Formen populär, welche die jeweiligen Stärken und Schwächen kombinieren. Die Technologie ist noch sehr domänen- und sprachabhängig und so können viele Ansätze nicht ohne weiteres aus dem Englischen auf andere Sprachen übertragen werden.
Intellektuelles Extracting
Beim Knowledge-Engineering-Ansatz erstellen Menschen Regeln und Muster zur Extraktion von Information aus Texten. Dies basiert oft auf kaskadierenden Regel-Grammatiken, wobei der Engineer eine Menge von Regeln definiert, welche aus dem regulären Ausdruck über die Eigenschaften des Textes bestehen, beispielsweise Einträge eines Wörterbuches oder von Wortklassen. Werden diese Muster im Text erkannt, wird der entsprechenden Textstelle eine Entität oder eine Relation zugewiesen. Es werden meist mehrere aufeinander aufbauende Grammatiken verwendet, welche komplexere Eigenschaften oder Entitäten für spätere Phasen herleiten. Die Herausforderungen umfasst die Definition einer standardisierten Regelsprache, welche Vorteile für die Forschung und Anwendungen mit sich bringen würde. Diese müsste ausreichend ausdrucksmächtig sein, eine deklarative Natur, sowie Erweiterbarkeit besitzen.
Automatisches Extracting
Beim automatischen Extracting werden zu allen Textstellen manuelle Annotationen hinzugefügt, woraus Modelle generiert werden, um Informationen aus ähnlichen, unbekannten Texten zu extrahieren. Es wird dabei aus den bearbeiteten Beispieldokumenten automatisch gelernt. Die Voraussetzung dazu bildet das Vorhandensein einer ausreichend grossen Stichprobe von repräsentativen Dokumenten der Domäne und die Annotationen der Texte mit den gesuchten Informationstypen.
Verfahren
Bei den Verfahren zur Extraktion handelt es sich im wesentlichen um freitext- und wortorientierte Verfahren. Da maschinelle Sprachverarbeitungsverfahren (natural Language processing, NLP) nicht in der Lage sind die Inhalte der Texte zu verstehen, versucht man diese mittels verschiedener formaler Kenntnisse zu unterstützen, welche der Maschine übermittelt werden.
Syntaktische Analyse
Die syntaktische Analyse besteht im wesentlichen aus:
- Textextraktion: Extraktion des Fliesstextes mittels Eliminierung sämtlicher Auszeichnungen zur Formatierung.
- Spracherkennung: Um auf einzelne Sprachen abgestimmte Verfahren wählen zu können, wird auf Spracherkennung gesetzt.
- Segmentierung von Wörtern: Unterteilung des Textes in Segmente, deren kleinste Einheit Wörter sind, was in europäischen Sprachen einfach, in asiatischen jedoch komplizierte Verfahren bedeutet.
- Segmentierung von Sätzen: Regeln und Heuristiken zur Erkennung von Satzenden und vor allem unter Berücksichtigung von Klammerausdrücken und Abkürzungen definieren.
- Part-of-Speech-Tagging: Anreicherung von Wörtern eines Textes mit Informationen über deren Bedeutung innerhalb von Satzgrenzen in Form von Wortarten.
- Erkennung von Phrasen: Den Zusammenhang zwischen einzelnen Wörtern eines Satzes herstellen.
Semantische Analyse
Die erkannten syntaktischen Strukturen werden auf ihren eigentlichen Bedeutungsinhalt analysiert. Dabei geht es primär um das Erkennen von Entitäten, also Personen, Organisationen oder Orte.
Die semantische Analyse besteht im wesentlichen aus:
- Benannten Entitäten
- Strukturierten Entitäten
- Koreferenzanalyse: Wenn in einem Text verschiedenen sprachliche Segmente auf die gleiche Entität verweisen, spricht man von Koreferenz: Somit versucht man Koreferenzketten aufzulösen.
- Auflösung sprachlicher Mehrdeutigkeit
Schwierigkeiten
Die Schwierigkeiten, die sich bei der Informationsextraktion ergeben, liegen in der Natur des Freitextes. Dies umfasst unter anderem folgende Phänomene:
- Die selbe Entität kann unterschiedlich benannt werden.
- Auf bereits benannte Entitäten oder Aussagen kann mithilfe von Anaphern Bezug genommen werden.
- Die grammatikalischen Rollen der Entitäten in Aussagen sind nicht markiert sondern ergeben sich aus der morphologischsyntaktischen Struktur eines Satzes: Flexionsendungen, Wortstellung, Präposition etc. deuten auf diese hin, sind jedoch unverständlich ohne vorheriges Wissen über deren Bedeutung.
- Ein Lemma kann durch Flexionsendungen unterschiedliche Gestalt annehmen.
- Aussagen können mit unterschiedlichem Vokabular gemacht werden.
- Es existieren Haupt- und Nebensätze, sowie andere Satz- und Teilsatzstrukturen mit unterschiedlicher Syntax.
- Trotz standardisierter Rechtschreibung und Grammatik existieren in der Realität Fehler.
Quellen
- Capurro, Rafael (2000): Einführung in die Informationswissenschaft. Verfügbar unter: http://www.capurro.de/iwmodul5.html [13.11.2014].
- Dengel, Andreas (Hrsg.) (2012): Semantische Technologien. Grundlagen-Konzepte-Anwendungen. Heidelberg: Spektrum.
- Klügl, Peter; Toepfer Martin (2014): Informationsextraktion. In: Informatik_Spektrum (Nr. 37_2, S. 132-135).
- Luckhardt, Heinz-Dirk (2010): Virtuelles Handbuch Informationswissenschaft. Automatische und intellektuelle Indexierung. Verfügbar unter: http://is.uni-sb.de/studium/handbuch/exkurs_ind.html [13.11.2014].
- Meyer, Alexander (2012): Extraktion von RDF-Tripeln aus unstrukturierten Wikipedia-Texten. DBpedia erweitern durch Auswertung kompletter Artikeltexte. Verfügbar unter: http://amor.cms.hu-berlin.de/~meyerale/wiki2rdf/Masterarbeit_A_Meyer.pdf [13.11.2014].
- Uszkorei, Hans (2009): Informationsextraktion. Information Retrieval. Verfügbar unter: http://www.coli.uni-saarland.de/courses/is-is/slides/VLIWIS_IE_HU.pdf [13.11.2014].
Weiterführende Literatur
- Salton, Gerard; McGill, Michael J. (1987): Information Retrieval. Grundlegendes für Informationswissenschaftler. Hamburg: McGraw-Hill.
- Knorz, G. (1997). Indexieren, Klassieren, Extrahieren. In: Buder;Rehfeld;Seeger;Strauch (Hrsg.): Grundlagen der praktischen Information und Dokumentation. München: K.G. Saur. (S.120-140).