Maschinelle Klassifikation: Unterschied zwischen den Versionen
Zeile 19: | Zeile 19: | ||
==Ansätze== | ==Ansätze== | ||
+ | |||
+ | Grundsätzlich wird immer zwischen maschinellen und regelbasierten Lernverfahren unterschieden. | ||
+ | |||
+ | ===Regelbasierter Ansatz=== | ||
+ | |||
+ | Bei den regelbasierten Verfahren werden von Experten Regeln aufgestellt. Nach diesen werden Texte annotiert. Das Verfahren ist sehr aufwendig und somit kosten- und zeitintensiv, da das Expertenwissen in einen Algorithmus umgeschrieben werden muss, damit das Konstrukt auf die Dokumente angewendet werden kann. Der Vorteil ist, dass keine Trainingsdokumente benötigt werden und der Algorithmus direkt auf den zu klassifizierenden Text angewendet werden kann. Regelbasierte Verfahren werden auch computerlinguistische Verfahren genannt, was nicht ganz korrekt ist, denn enthalten diese auch die wörterbuchbasierten Verfahren. Dieses wiederum benutzt elektornische Wörterbücher zur Referenzierung bestimmter Terme in einem Text. | ||
+ | |||
+ | ===Maschineller Ansatz=== | ||
+ | |||
+ | Maschinelle Lernverfahren hingegen benötigen Trainingsdokumente. Dies sind Texte, welche bereits intellektuell klassifiziert wurden, was in Bibliotheken meist durch Fachreferenten geschieht, welche jedes Dokument einer bestimmten Klasse zuordnen. | ||
+ | Diese Trainingsdokumente werden dazu benutzt, dass das Programm die Charakteristika einer Klasse über die vorklassifizierten Dokumente erlernt. Dies beinhaltet die Anwendung stochastischer und statistischer Methoden auf den Text. Die Vorteile liegen darin, dass kein Expertenwissen benötigt wird. Das Lernverfahren kann zudem leicht auf andere Klassifikationssysteme angewendet werden. | ||
==Verfahren== | ==Verfahren== |
Version vom 22. November 2014, 12:12 Uhr
Das maschinelle Klassifizieren kann als ein Teilaspekt automatischer Inhaltserschliessung verstanden werden und ist vom automatischen Clustern abzugrenzen, bei welchem kein fertiges Klassifikationssystem benutzt wird. Im Bibliotheksumfeld hingegen existieren feste Klassifikationssysteme, in welche die zu klassifizierenden Texte eingeordnet werden müssen. Ein rein automatisches Verfahren ist dabei nicht möglich, da die aus den Texten automatisch gewonnene Information immer im Bruch zur intellektuel erstellten Klassifikation stehen wird. Deshalb sind in diesem Zusammenhang semiautomatische Verfahren das Ziel, welche bestenfalls durch die Anwenderaktionen lernen können.
Inhaltsverzeichnis
Ziele
Das Ziel einer Klassifikation besteht darin, einen Dokumentenbestand zu Strukturieren, um so leichter in diesem Bestand navigieren zu können. Automatische Verfahren sollen dabei Zeit-, Personal und - damit verbunden - Kosteneinsparungen mit sich bringen.
Arten
Grundsätzlich wird bei der maschinellen Klassifikation zwischen häufigkeitsbasierten, lineraren, prototypbasierten und hierarchischen Verfahren unterschieden. Dies umfasst hauptsächlich:
- Naiver Bayes-Klassifikator
- Lineare Diskriminanzanalyse
- Support-Vektor-Maschine
- Nächster Nachbar Klassifikator
- Lernende Vektorquantisierung
- Entscheidungsbäume
Ansätze
Grundsätzlich wird immer zwischen maschinellen und regelbasierten Lernverfahren unterschieden.
Regelbasierter Ansatz
Bei den regelbasierten Verfahren werden von Experten Regeln aufgestellt. Nach diesen werden Texte annotiert. Das Verfahren ist sehr aufwendig und somit kosten- und zeitintensiv, da das Expertenwissen in einen Algorithmus umgeschrieben werden muss, damit das Konstrukt auf die Dokumente angewendet werden kann. Der Vorteil ist, dass keine Trainingsdokumente benötigt werden und der Algorithmus direkt auf den zu klassifizierenden Text angewendet werden kann. Regelbasierte Verfahren werden auch computerlinguistische Verfahren genannt, was nicht ganz korrekt ist, denn enthalten diese auch die wörterbuchbasierten Verfahren. Dieses wiederum benutzt elektornische Wörterbücher zur Referenzierung bestimmter Terme in einem Text.
Maschineller Ansatz
Maschinelle Lernverfahren hingegen benötigen Trainingsdokumente. Dies sind Texte, welche bereits intellektuell klassifiziert wurden, was in Bibliotheken meist durch Fachreferenten geschieht, welche jedes Dokument einer bestimmten Klasse zuordnen. Diese Trainingsdokumente werden dazu benutzt, dass das Programm die Charakteristika einer Klasse über die vorklassifizierten Dokumente erlernt. Dies beinhaltet die Anwendung stochastischer und statistischer Methoden auf den Text. Die Vorteile liegen darin, dass kein Expertenwissen benötigt wird. Das Lernverfahren kann zudem leicht auf andere Klassifikationssysteme angewendet werden.
Verfahren
Schwierigkeiten
Wesentliche Probleme entstehen bei der maschinellen Klassifikation in Bezug auf Dokumente mit übergreifenden Themen, da diese keinem klaren Gebiet zugeordnet werden können. Weitere Schwierigkeiten birgt die Pflege der Klassifikation an sich. Es stellt sich die Frage, wann Deskriptoren einer Klasse entfernt werden können, und ob sie überhaupt entfernt werden sollen. Zudem können Terme innerhalb von Kontexten Bedeutungswandeln unterliegen, welche nicht automatisiert angepasst werden.
Quellen
- Helmbrecht-Schaar, Anja (2007): Entwicklung eines Verfahrens der automatischen Klassifizierung für Textdokumente aus dem Fachbereich Informatik mithilfe eines fachspezifischen Klassifikationssystems. In: Umlauf, Konrad (Hrsg.): Berliner Handreichungen zur Bibliotheks- und Informationswissenschaft (Heft 200). Berlin: Humboldt-Universität.
- Runkler, Thomas A. (2010): Data Mining. Methoden und Algorithmen intelligenter Datenanalyse. Wiesbaden: GWV Fachverlage.
- Sommer, Maike (2012): Automatische Generierung von CCD-Notationen für Hochschulveröffentlichungen. Bacherlorarbeit: Hochschule Hannover.
Weiterführende Literatur
- Nohr, Holger (2003): Grundlagen der automatischen Indexierung. Ein Lehrbuch. Berlin: Logos.
- Heyer, Gerhard; Quasthoff, Uwe; Wittig, Thomas (2008): Wissensrohstoff Text. Konzepte, Algorithmen, Ergebnisse. 1. korrigierter Nachdr. Herdecke: W3L-Verl.
- Sebastiani, Fabrizio (2002): Machine learning in automated text categorization. In: ACM Computing Surveys. Jg. 34, H. 1, S. 1-47. Verfügbar unter: http://nmis.isti.cnr.it/sebastiani/Publications/ACMCS02.pdf [22.11.2014].