Automatische Indexierung
Die automatische Indexierung ist neben der intellektuellen (manuellen) und computergestützten Indexierung eine der Methoden, mit denen Deskriptoren einer dokumentarischen Bezugseinheit zugeordnet werden können.
Die automatische Indexierung setzt voraus, dass "coded informations" vorhanden sind. Mit anderen Worten, Zeichenketten, die der Computer bzw. die Software durchsuchen kann. Man unterscheidet zwischen folgenden unterschiedlichen automatischen Indexierungsverfahren: |
Inhaltsverzeichnis
Freitextverfahren
Hierbei übernimmt das System alle Wörter in den Index und lässt sie somit zur Suche zu. Der Index kann hierbei nach vollen bzw. trunkierten Wortformen durchsucht werden. Durch Trunkierungssymbole werden Teile des Wortes isoliert, es können dann Wörter gesucht werden, in denen der abgesonderte Wortteil enthalten ist. Diese Symbole können je nach Anwendung unterschiedlich aussehen (z.B. "?" oder "*") und vor, nach oder in der Mitte eines Wortes gesetzt werden. Beispielsweise „Atlas“: man möchte andere Formen dieses Wortes berücksichtigen und schreibt „atla?“, erhält dann u.a. „Atlasse, Atlassen, Atlanten“ aber auch „Atlantik“. Dieses Beispiel macht deutlich, dass durch dieses Verfahren auch viel Ballast produziert werden kann (Atlantik = Ballast). Dem Problem des Ballastes versucht das Morphologisch-lexikalische Verfahren gerecht zu werden.
Um die Indexdatenbank jedoch möglichst schlank halten zu können, also die Zahl der Deskriptoren zu reduzieren und somit die Bearbeitungszeit zu verringern (sowohl bei der Erstellung als auch bei der Suchanfrage), löscht man aus dem Index so genannte Stoppworte (inhaltsleere Wörter) heraus.
Dieses Verfahren ist relativ einfach zu implementieren, aber (abgesehen von trunkierten Wortformen – wenn im Suchsystem implementiert) nicht sehr „intelligent“.
Morphologisch-lexikalische Verfahren
Das morphologisch-lexikalische Verfahren wird eingesetzt, um den bei der Trunkierung enstehenden Ballast zu reduzieren. Es bietet eine bessere Retrieval - Genauigkeit durch Computerlexika, aufgeteilt in Wortformen- und Stammlexika, die mit unterschiedlichen Arbeitsweisen vorgehen. Wortformenlexika beinhalten alle Grundformen aller enthaltener Wörter mit den dazugehörigen grammatischen Formen (Person, Numerus, Tempus..). Dadurch wird eine morphologische Analyse und damit eine Untersuchung von Wörtern, die nicht im Lexikon enthalten sind, überflüssig, z.B. Wortzusammensetzungen und Ableitungen. Nur mit Stammlexika kann man neue Wörter analysieren, die noch nicht im Lexikon stehen. Auf diesem Weg und in Verbindung mit einer syntaktischen Analyse lassen sich auch Mehrwortbegriffe mit einbeziehen (wie "natürliche Person"). Lexikalische Systeme sind dafür flexibler was neue Worte angeht! z.B. Spaßgesellschaftskonsum
Morphosyntaktische Verfahren
Deutlich aufwendiger als das Morphologisch-lexikalische Verfahren ist das Morphosyntaktische Verfahren. Es ist allerdings auch - abgesehen vom smantischen Verfahren das qualitativ beste Verfahren. Hierbei werden Texte geparst und eine komplette Repräsentation des Textes wird angelegt. Dann ist die Analyse von Mehrwortdeskriptoren möglich. Teilweise ist sogar Erkennen von Abhängigkeiten zwischen mehreren Deskriptoren möglich. z.B. Das Gericht verneinte einen Anspruch des Klägers auf Entschädigung (Dependenzanalyse) -> Anspruch auf Entschädigung. Die Mehrdeutigkeit natürlicher Sprache ist jedoch eine sehr (rechen)aufwendiges Problem bei der Indexierung von Texten. Doch um eine wirklich vollauomatische Indexierung zufriedenstellend betreiben zu können ist keines dieser Verfahren wirklich praktikabel. Dies ließe sich nur durch semantische Analyse lösen. Aber trotz intensiver Forschungsbemühungen gibt es zurzeit noch keine praktikablen Ergebnisse.
Semantische Analyse
Eine semantische Analyse ist beispielsweise von Vorteil, wenn ein Sachverhalt von mehreren Personen beschrieben wird. Erläutern verschiedene Nutzer den gleichen Sachverhalt, wählen sie dafür unterschiedliche Formulierungen. Die sogenannten Rollenindikatoren trennen hier mit Hilfe der semantischen Analyse Subjekt, Objekt und Handlung von den Deskriptoren. Zum besseren Verständnis möchte ich hier ein Beispiel aus dem virtuellen Handbuch der Informationswissenschaft anführen, das ursprünglich in der DIN 31 623 Teil 3 aufgeführt wird. "Der Einsatz von Pferden zum Schleppen von Baumstämmen".
Die Formulierung dieses Sachverhalts kann fast beliebig variiert werden: Pferde schleppen Baumstämme Pferde können Baumstämme schleppen Baumstämme können von Pferden geschleppt werden das Schleppen von Baumstämmen durch Pferde Pferde, die Baumstämme schleppen können
Im Grunde handelt es sich immer um den gleichen Sachverhalt: Rollenindikator:________Deskriptor: Subjekt (Handelnder)____Pferd Handlung______________Schleppen Objekt_______________Baumstämme"
Es gibt zwar sehr interessante Forschungsansätze wie z.B. PASSAT von Siemens AIR-PHYS von der TH Darmstadt CTX der Informationswissenschaftlichen Fakultät der Universität des Saarlandes. Alle haben jedoch ähnliche Probleme wie z.B.: hoher Aufwand für die Lexikonpflege, Mehrdeutigkeiten, Performanceprobleme, Bedienungsprobleme, etc. Insgesamt gibt es also nach wie vor keine wirklich marktreife Variante eines der Systeme.
Thesaurusrelation
Auch Thesauri werden bei der automatischen Indexierung angewendet. Durch sie werden die semantischen Beziehungen verschiedener Begriffe zueinander festgehalten. Das heißt, dass auch Begriffe, die nicht im Text stehen, aber trotzdem das Dokument sehr gut beschreiben, als Deskriptoren zur Verfügung stehen können.
Quellen:
1. Luckhardt, Heinz-Dirk, Automatisches und intellektuelles Indexieren: Virtuelles Handbuch der Informationswissenschaft, Abschnitte 0.-3.4.2
http://is.uni-sb.de/studium/handbuch/exkurs.ind.html last visited 5.11.05
2. DIN 31 623
3. Knorz, G., Automatische Indexierung, in: Hennings, R.-D.;Knorz, G.; Manecke, H.-J.; Reinicke, W.; Schwandt, J.: Wissensrepräsentation und Information Retrieval. Universität Potsdam, Informationswissenschaft, Modellversuch BETID, Lehrmaterialien Nr. 3, Mai 1994, Kapitel 4, S. 138 - 196
http://fiz1.fh-potsdam.de/volltext/fhdarmstadt/03003.html last visited 5.11.05
4. Knorz, G., Informationsaufbereitung II: Indexieren, in: Kuhlen/Seeger/Strauch (Hrsg.): Grundlagen der praktischen Information und Dokumentation (2004), Kap B5, S. 179-188