Maschinelle Klassifikation: Unterschied zwischen den Versionen

Aktuelle Version vom 8. Januar 2015, 14:36 Uhr

Inhaltsverzeichnis

1 Definition
2 Ziele
3 Arten
4 Ansätze
- 4.1 Regelbasierter Ansatz
- 4.2 Maschineller Ansatz
5 Verfahren
6 Schwierigkeiten
7 Quellen
8 Weiterführende Literatur
9 Weblinks
10 Verwandte Begriffe

Definition

Das maschinelle Klassifizieren kann als ein Teilaspekt automatischer Inhaltserschliessung verstanden werden und ist vom automatischen Clustern abzugrenzen, bei welchem kein fertiges Klassifikationssystem benutzt wird. Im Bibliotheksumfeld hingegen existieren feste Klassifikationssysteme, in welche die zu klassifizierenden Texte eingeordnet werden müssen. Ein rein automatisches Verfahren ist dabei nicht möglich, da die aus den Texten automatisch gewonnene Information immer im Bruch zur intellektuell erstellten Klassifikation stehen wird. Deshalb sind in diesem Zusammenhang semiautomatische Verfahren das Ziel, welche bestenfalls durch die Anwenderaktionen lernen können.

Ziele

Das Ziel einer Klassifikation besteht darin, einen Dokumentenbestand zu strukturieren, um so leichter in diesem Bestand navigieren zu können. Automatische Verfahren sollen dabei Zeit-, Personal und - damit verbunden - Kosteneinsparungen mit sich bringen.

Arten

Grundsätzlich wird bei der maschinellen Klassifikation zwischen häufigkeitsbasierten, lineraren, prototypbasierten und hierarchischen Verfahren unterschieden. Dies umfasst hauptsächlich:

Naiver Bayes-Klassifikator
Lineare Diskriminanzanalyse
Support-Vektor-Maschine
Nächster Nachbar Klassifikator
Lernende Vektorquantisierung
Entscheidungsbäume

Ansätze

Grundsätzlich wird immer zwischen maschinellen und regelbasierten Lernverfahren unterschieden.

Regelbasierter Ansatz

Bei den regelbasierten Verfahren werden von Experten Regeln aufgestellt. Nach diesen werden Texte annotiert. Das Verfahren ist sehr aufwendig und somit kosten- und zeitintensiv, da das Expertenwissen in einen Algorithmus umgeschrieben werden muss, damit das Konstrukt auf die Dokumente angewendet werden kann. Der Vorteil ist, dass keine Trainingsdokumente benötigt werden und der Algorithmus direkt auf den zu klassifizierenden Text angewendet werden kann. Regelbasierte Verfahren werden auch computerlinguistische Verfahren genannt, was nicht ganz korrekt ist, denn diese enthalten auch die wörterbuchbasierten Verfahren. Dieses wiederum benutzt elektronische Wörterbücher zur Referenzierung bestimmter Terme in einem Text.

Maschineller Ansatz

Maschinelle Lernverfahren hingegen benötigen Trainingsdokumente. Dies sind Texte, welche bereits intellektuell klassifiziert wurden, was in Bibliotheken meist durch Fachreferenten geschieht, welche jedes Dokument einer bestimmten Klasse zuordnen. Diese Trainingsdokumente werden dazu benutzt, dass das Programm die Charakteristika einer Klasse über die vorklassifizierten Dokumente erlernt. Dies beinhaltet die Anwendung stochastischer und statistischer Methoden auf den Text. Die Vorteile liegen darin, dass kein Expertenwissen benötigt wird. Das Lernverfahren kann zudem leicht auf andere Klassifikationssysteme angewendet werden.

Verfahren

Zerlegung

Um von einem Dokument zu einer Klassifikation zu gelangen, muss als erstes eine Zerlegung vorgenommen werden, wobei auf Grundlage des Dokumentes ein Index erzeugt wird. Dazu wird eine Termextraktion vorgenommen, deren Ziel die Bestimmung der relevanten Begriffe eines Textes ist. Dabei wird das Ursprungsdokument, welches Volltext und Metadaten umfasst, in mehreren Teilschritten bearbeitet:

Eliminierung der Struktur:syntaktische Elemente werden nicht berücksichtigt.
Eliminierung häufiger Terme: Stoppwörter.
Eliminierung der 200-300 häufigsten Wörter einer Kollektion von Dokumenten.
Aufbrechen des Textes in Terme: Die Ermittlung von Wörtern und Wortfolgen, die als Terme zur Beschreibung verwendet werden, wobei sie auf ihre Stammform reduziert werden.
Reduktion der Terme auf Stammform und Zerlegung der Komposita.

Allgemeingültige Algorithmen, wie beispielsweise der Porter Algorithmus, existieren nur für die englische Sprache. Aufgrund der starken Konjugation und Deklination im Deutschen, können diese Wörter nicht automatisch in ihre Stammform überführt werden, weshalb zusätzlich Thesauri verwendet werden. Nach der Indexierung liegt als Ergebnis eine Menge von Begriffen vor.

Bestimmung der Relevanz

Ebenfalls nimmt die Bestimmung der Relevanz von Begriffen eine zentrale Rolle ein. Diese werden nach Position und Auftreten im Dokument beurteilt und in Bezug zum allgemeinen Wortschatz gestellt. Wenn die Termhäufigkeit im Dokument den festgelegten Erwartungswert X um einen Faktor Y überschreitet, gilt dieser als relevant. Die Bedeutung eines Begriffes innerhalb eines Textes wird über verschiedene Verfahren ermittelt. Eine weit verbreitete ist die Differenzanalyse, welche sich sowohl statistischer als auch linguisitscher Methoden bedient. Zur Durchführung der Differenzanalyse werden zwei Textmengen verglichen. Dies ist zum einen der zu analysierende Text und zum anderen ein Referenzkorpus, welcher allgemeinsprachlich aufgebaut ist. Als Ergebnis entsteht eine Liste von Worten, welche die relevante Terminologie des Textes abbildet.

Abbildung der Terme

Des Weiteren muss die erstellte Liste auf eine Klassifikation abgebildet werden. Dazu wird als Ausgangsbasis idealerweise ein Fachthesaurus verwendet, welcher eine Klassifikation impliziert. Die ausgewählte Klassifikation muss dem Anwendungsszenario gemäss gewählt werden. Werden beispielsweise Online-Dokumente automatisiert klassifiziert, spielt eine Aufstellungssystematik keine Rolle, so dass auch polyhierarchische Strukturen optimal genutzt werden können. Zudem sollte die Klassifikation mit jedem Vorgang des Klassifizierens um relevante Terme angereichert werden.

Auswirkungen auf die Datenbasis

Bereits klassifizierte Fachtexte können als Instanzen der jeweiligen Klasse hinterlegt werden, um die Datenbasis zu verbessern. Intellektuell klassifizierte Begriffe können dabei als Deskriptoren hinterlegt werden. Mit jeder Klassifizierung werden die neuen Terme als weitere Deskriptoren verwendet und das Dokument als Instanz einer Klasse zugeordnet, wodurch das System lernend wird. Damit wird die Datenbasis vergrössert und die Automatisierung verbessert.

Schwierigkeiten

Wesentliche Probleme entstehen bei der maschinellen Klassifikation in Bezug auf Dokumente mit übergreifenden Themen, da diese keinem klaren Gebiet zugeordnet werden können. Weitere Schwierigkeiten birgt die Pflege der Klassifikation an sich. Es stellt sich die Frage, wann Deskriptoren einer Klasse entfernt werden können, und ob sie überhaupt entfernt werden sollen. Zudem können Terme innerhalb von Kontexten Bedeutungswandeln unterliegen, welche nicht automatisiert angepasst werden.

Quellen

Helmbrecht-Schaar, Anja (2007): Entwicklung eines Verfahrens der automatischen Klassifizierung für Textdokumente aus dem Fachbereich Informatik mithilfe eines fachspezifischen Klassifikationssystems. In: Umlauf, Konrad (Hrsg.): Berliner Handreichungen zur Bibliotheks- und Informationswissenschaft (Heft 200). Berlin: Humboldt-Universität.

Runkler, Thomas A. (2010): Data Mining. Methoden und Algorithmen intelligenter Datenanalyse. Wiesbaden: GWV Fachverlage.

Sommer, Maike (2012): Automatische Generierung von CCD-Notationen für Hochschulveröffentlichungen. Bacherlorarbeit: Hochschule Hannover.

Weiterführende Literatur

Nohr, Holger (2003): Grundlagen der automatischen Indexierung. Ein Lehrbuch. Berlin: Logos.

Heyer, Gerhard; Quasthoff, Uwe; Wittig, Thomas (2008): Wissensrohstoff Text. Konzepte, Algorithmen, Ergebnisse. 1. korrigierter Nachdr. Herdecke: W3L-Verl.

Sebastiani, Fabrizio (2002): Machine learning in automated text categorization. In: ACM Computing Surveys. Jg. 34, H. 1, S. 1-47. Verfügbar unter: http://nmis.isti.cnr.it/sebastiani/Publications/ACMCS02.pdf [22.11.2014].

Weblinks

http://de.wikipedia.org/wiki/Automatische_Klassifizierung

@@ Zeile 1: / Zeile 1: @@
-Das maschinelle [[Klassifikation|Klassifizieren]] kann als ein Teilaspekt automatischer Inhaltserschliessung verstanden werden und ist vom automatischen Clustern abzugrenzen, bei welchem kein fertiges Klassifikationssystem benutzt wird.
+==Definition==
-Im Bibliotheksumfeld hingegen existieren feste Klassifikationssysteme, in welche die zu klassifizierenden Texte eingeordnet werden müssen. Ein rein automatisches Verfahren ist dabei nicht möglich, da die aus den Texten automatisch gewonnene Information immer im Bruch zur intellektuel erstellten Klassifikation stehen wird. Deshalb sind in diesem Zusammenhang semiautomatische Verfahren das Ziel, welche bestenfalls durch die Anwenderaktionen lernen können.
+[[definition::Das maschinelle Klassifizieren kann als ein Teilaspekt automatischer [[Informationserschließung|Inhaltserschliessung]] verstanden werden und ist vom automatischen [[Cluster|Clustern]] abzugrenzen, bei welchem kein fertiges Klassifikationssystem benutzt wird.]]
+Im Bibliotheksumfeld hingegen existieren feste Klassifikationssysteme, in welche die zu klassifizierenden Texte eingeordnet werden müssen. Ein rein automatisches Verfahren ist dabei nicht möglich, da die aus den Texten automatisch gewonnene Information immer im Bruch zur intellektuell erstellten Klassifikation stehen wird. Deshalb sind in diesem Zusammenhang semiautomatische Verfahren das Ziel, welche bestenfalls durch die Anwenderaktionen lernen können.
 ==Ziele==
-Das Ziel einer Klassifikation besteht darin, einen Dokumentenbestand zu Strukturieren, um so leichter in diesem Bestand navigieren zu können. Automatische Verfahren  sollen dabei Zeit-, Personal und - damit verbunden - Kosteneinsparungen mit sich bringen.
+Das Ziel einer Klassifikation besteht darin, einen Dokumentenbestand zu strukturieren, um so leichter in diesem Bestand navigieren zu können. Automatische Verfahren sollen dabei Zeit-, Personal und - damit verbunden - Kosteneinsparungen mit sich bringen.
 ==Arten==
@@ Zeile 24: / Zeile 25: @@
 ===Regelbasierter Ansatz===
-Bei den regelbasierten Verfahren werden von Experten Regeln aufgestellt. Nach diesen werden Texte annotiert. Das Verfahren ist sehr aufwendig und somit kosten- und zeitintensiv, da das Expertenwissen in einen Algorithmus umgeschrieben werden muss, damit das Konstrukt auf die Dokumente angewendet werden kann. Der Vorteil ist, dass keine Trainingsdokumente benötigt werden und der Algorithmus direkt auf den zu klassifizierenden Text angewendet werden kann. Regelbasierte Verfahren werden auch computerlinguistische Verfahren genannt, was nicht ganz korrekt ist, denn enthalten diese auch die wörterbuchbasierten Verfahren. Dieses wiederum benutzt elektronische Wörterbücher zur Referenzierung bestimmter Terme in einem Text.
+Bei den regelbasierten Verfahren werden von Experten Regeln aufgestellt. Nach diesen werden Texte [[Annotation|annotiert]]. Das Verfahren ist sehr aufwendig und somit kosten- und zeitintensiv, da das Expertenwissen in einen [[Algorithmus]] umgeschrieben werden muss, damit das Konstrukt auf die Dokumente angewendet werden kann. Der Vorteil ist, dass keine Trainingsdokumente benötigt werden und der Algorithmus direkt auf den zu [[Klassifikation|klassifizierenden]] Text angewendet werden kann. Regelbasierte Verfahren werden auch computerlinguistische Verfahren genannt, was nicht ganz korrekt ist, denn diese enthalten auch die wörterbuchbasierten Verfahren. Dieses wiederum benutzt elektronische Wörterbücher zur Referenzierung bestimmter Terme in einem Text.
 ===Maschineller Ansatz===
@@ Zeile 36: / Zeile 37: @@
 Um von einem Dokument zu einer Klassifikation zu gelangen, muss als erstes eine Zerlegung vorgenommen werden, wobei auf Grundlage des Dokumentes ein Index erzeugt wird.
-Dazu wird eine Termextraktion vorgenommen, deren Ziel die Bestimmung der relevanten Begriffe eines Textes ist. Dabei wird das Ursprungsdokument, welches Volltext und Metadaten umfasst, in mehereren Teilschritten bearbeitet:
+Dazu wird eine [[Extracting|Termextraktion]] vorgenommen, deren Ziel die Bestimmung der relevanten Begriffe eines Textes ist. Dabei wird das Ursprungsdokument, welches Volltext und Metadaten umfasst, in mehreren Teilschritten bearbeitet:
 *Eliminierung der Struktur:syntaktische Elemente werden nicht berücksichtigt.
-*Eliminierung häufiger Terme: Stoppwörter.
+*Eliminierung häufiger Terme: [[Stoppwort|Stoppwörter]].
 *Eliminierung der 200-300 häufigsten Wörter einer Kollektion von Dokumenten.
 *Aufbrechen des Textes in Terme: Die Ermittlung von Wörtern und Wortfolgen, die als Terme zur Beschreibung verwendet werden, wobei sie auf ihre Stammform reduziert werden.
 *Reduktion der Terme auf Stammform und Zerlegung der Komposita.
-Allgemeingültige Algorithmen, wie beispielsweise der Porter Algorithmus, existieren nur für die englische Sprache. Aufgrund der starken Konjugation und Deklination im Deutschen, können diese Wörter nicht automatisch in ihre Stammform überführt werden, weshalb zusätzlich Thesauri verwendet werden.
+Allgemeingültige Algorithmen, wie beispielsweise der Porter Algorithmus, existieren nur für die englische Sprache. Aufgrund der starken Konjugation und Deklination im Deutschen, können diese Wörter nicht automatisch in ihre Stammform überführt werden, weshalb zusätzlich [[Thesaurus|Thesauri]] verwendet werden.
 Nach der Indexierung liegt als Ergebnis eine Menge von Begriffen vor.
@@ Zeile 54: / Zeile 55: @@
 ===Abbildung der Terme===
-Des weiteren muss die erstellte Liste auf eine Klassifikation abgebildet werden. Dazu wird als Ausgangsbasis idealerweise ein Fachthesaurus verwendet, welcher eine Klassifikation impliziert.
+Des Weiteren muss die erstellte Liste auf eine Klassifikation abgebildet werden. Dazu wird als Ausgangsbasis idealerweise ein Fachthesaurus verwendet, welcher eine Klassifikation impliziert.
 Die ausgewählte Klassifikation muss dem Anwendungsszenario gemäss gewählt werden. Werden beispielsweise Online-Dokumente automatisiert klassifiziert, spielt eine Aufstellungssystematik keine Rolle, so dass auch polyhierarchische Strukturen optimal genutzt werden können.
 Zudem sollte die Klassifikation mit jedem Vorgang des Klassifizierens um relevante Terme angereichert werden.
@@ Zeile 60: / Zeile 61: @@
 ===Auswirkungen auf die Datenbasis===
-Bereits klassifizierte Fachtexte können als Instanzen der jeweiligen Klasse hinterlegt werden, um die Datenbasis zu verbessern. Intellektuell klassifizierte Begriffe können dabei als Deskriptoren hinterlegt werden. Mit jeder Klassifizierung werden die neuen Terme als weitere Deskriptoren verwendet und das Dokument als Instanz einer Klasse zugeordnet, wodurch das System lernend wird. Damit wird die Datenbasis vergrössert und die Automatisierung verbessert.
+Bereits klassifizierte Fachtexte können als Instanzen der jeweiligen Klasse hinterlegt werden, um die Datenbasis zu verbessern. Intellektuell klassifizierte Begriffe können dabei als Deskriptoren hinterlegt werden. Mit jeder Klassifizierung werden die neuen Terme als weitere [[Deskriptor|Deskriptoren]] verwendet und das Dokument als Instanz einer Klasse zugeordnet, wodurch das System lernend wird. Damit wird die Datenbasis vergrössert und die Automatisierung verbessert.
 ==Schwierigkeiten==
@@ Zeile 91: / Zeile 92: @@
 * [[broader::Klassifikation]]
+* [[related::Extracting]]
+* [[related::Cluster]]
 * [[synonymous::Automatische Klassifizierung]]
+* [[english::automatic classification]]
 [[category:Informationsarbeit]]
 [[category:Wissensrepräsentation]]

Maschinelle Klassifikation: Unterschied zwischen den Versionen

Aktuelle Version vom 8. Januar 2015, 14:36 Uhr

Inhaltsverzeichnis

Definition

Ziele

Arten

Ansätze

Regelbasierter Ansatz

Maschineller Ansatz

Verfahren

Zerlegung

Bestimmung der Relevanz

Abbildung der Terme

Auswirkungen auf die Datenbasis

Schwierigkeiten

Quellen

Weiterführende Literatur

Weblinks

Verwandte Begriffe

Navigationsmenü

Meine Werkzeuge

Namensräume

Varianten

Ansichten

Mehr

Suche

Navigation

Werkzeuge