Indexierung
Als Indexierung bezeichnet man beim Information-Retrieval die Zuordnung von Deskriptoren aus einem Thesaurus oder Schlagwortkatalog bzw. aus einer Notationen einer Klassifikation zu einem Dokument zur Erschließung der darin umfassenden Sachverhalte. |
Inhaltsverzeichnis
Was kann man indexieren?
Generell ist es möglich unterschiedlichste Arten von Dokumenten zu indexieren. Im allgemeinen spricht man jedoch von der Indexierung von Textdokumenten bzw. von Dokumenten, die zu (größeren) Teilen aus Text bestehen. Es gibt aber auch Verfahren andere Dokumenttypen wie z.B. Bilder, Audio- oder Videodaten zu indexieren. Im folgenden Artikel wird die Indexierung von Textdokumenten betrachtet.
Wozu dient Indexieren?
Sollen (grosse) Dokumente auf den Weg in einen großen (unübersichtlichen) Pool - z.B. das Internet - geschickt werden, so besteht im allgemeinen der Wunsch, sie dort (möglichst einfach) wieder aufzufinden. Meist geschieht dieses Auffinden mithilfe von Suchmaschinen. Doch damit einen Suchmaschine - gleich ob in einer kleinen Datenbank, einem großen Netzwerk oder dem Internet - Dokumente (effizient) wieder auffinden kann muss sie Informationen über dieses haben. Diese Information über Daten (Metadaten genannt) werden an das Dokument angehängt und sind für den Benutzer (in der Regel) beim rezipieren des Dokuments nicht sichtbar. Die Suchmaschine jedoch wertet diese Daten (beim Aufnehmen des Dokuments in ihre Suchdatenbank) aus und versucht somit beim Abarbeiten von Suchanfragen dem Benutzer möglichst optimale Ergebnisse zu liefern.
Wie werden Texte indexiert?
Bei der Indexierung unterscheidet man zwischen drei verschiedenen Verfahren:
In der Regel ist intellektuelles Indexieren am zeitaufwendigsten und somit am teuersten. Die Qualität eines guten, intellektuell erstellten Indexes kann jedoch bislang von keinem automatischen System erreicht werden und die Suchergebnisse sind daher in der Regel für einen Informationssuchenden am zufriedenstellensten wenn ein Text zuvor intellektuell indexiert wurde. Automatisches indexieren ist dafür deutlich schneller und somit billiger. Computer gestütztes Indexieren ist ein Verfahren das die beiden anderen kombiniert. Es versprich somit einen Kompromiss aus Indexierungsaufwand und Qualität des Indexes.
Generell gibt die DIN 31623 eine Empfehlung wie Indexierung zu vonstatten gehen sollte.
Was geschieht beim Indexieren?
Dem Dokument werden Metadaten angehängt, die es beschreiben und somit maschinenlesbar machen. Diese Metadaten enthalten sogenannte Deskriptoren. Das sind Stichwörter oder Schlagwörter die den Inhalt des Textes beschreiben sollen. Wie werden nun diese Deskriptoren - gleich bei welcher Art des Indexierens ermittelt?
Was sollte man beachten, wenn man Texte indexiert?
Schlagwörter sollten aus einem kontrollierten Vokabular (z.B. der Schlagwortnormdatei) oder einer anderen Dokumentationssprache benutzt werden. Weiterhin sollte der Indexierer über möglichst gute Textkenntnis verfügen, sich in die Lage des Informationssuchenden versetzen können und über ein gewisses Verständnis für die Arbeitsweise von Suchmaschinen verfügen.
Wie sieht also die Indexierung in der Praxis aus?
Eine Suchmaschine kann nur zufriedenstellende Ergebnisse liefern, wenn sie auf einen guten Index zurückgreifen kann. Ein wirklich guter Index kann jedoch zur Zeit nur von einem Indexierer aus Fleisch und Blut erstellt werden. Daher findet man in kostenpflichtigen Datenbanken (Firmen-, Universitäts- oder Bibliotheksdatenbanken) nach wie vor intellektuell- oder zumindest computergestützt erstellte Indexe.
Anders sieht es jedoch im Internet aus. Hier treten täglich unzählige neu Dokumente an die Öffentlichkeit heran die indexiert werden sollen. Eine intellektuelle Indexierung ist daher für Suchmaschinenbetreiber sowohl aus finanziellen als auch aus zeitlichen Gründen nicht möglich.
Hier bleibt also nur der Weg des automatischen Indexierens.
Als Verfahren trifft man dabei nach wie vor hauptsächlich Freitextsysteme an. Sie verwenden meist auf das Fachgebiet beschränkten Stopwortlisten.
Um die Qualität automatischer System (erheblich) steigern zu können ist jedoch ein Umstieg auf alternative Verfahren notwendig.
Daher treiben Suchmaschinenhersteller die Entwicklung alternativer Technologien wie die des Morphosyntaktischen Verfahrens voran. Es ist jedoch nach aktuellem Kenntnisstand kaum vorstellbar, dass jemals ein automatisches Verfahren die Qualität intellektuellen Indexierens erreichen kann, wenn Texte nicht zuverlässig und effizient semantisch analysiert werden können. Die Maschine muss also eine Repräsentation des Inhaltes des Textes erstellen, den Text quasi "verstehen", um sinnvoll Deskriptoren wählen zu können. Auch bei menschlichem Indexieren zeigt sich schließlich dass ein Indexierer einen Text "verstehen" muss - ja er sollte gar über weiteres Hintergrundwissen verfügen um einen soliden Index zu erstellen.
Doch bis dahin muss wohl noch viel (Grundlagen)Forschung betrieben werden. Nach wie vor ist die mangelnde Rechenperformance ein großes Problem. Das "Moorsche Gesetz" läßt zwar hoffen dass sich Rechnergeschwindigkeitsengpässe mittelfristig in Wohlgefallen auflösen, aber wenn nicht auch die Techniken der Analyse von Texten entscheidend verbessert wird und der reibungslose Transfer der Analyseergebnisse in eine semantische Repräsentation gelingt, lässt die Realisierung des Traums vom Web 2.0 noch ein wenig auf sich warten....
Literatur
Salton, Gerard; McGill, Michael J.: Information Retrieval: Grundlegendes für Informationswissenschaftler. - Hamburg [u.a.]: McGraw-Hill, 1987.
Knorz, G. (2004). Informationsaufbereitung II: Indexieren. In: Kuhlen/Seeger/Strauch (Hrsg., 1997): Grundlagen der praktischen Information und Dokumentation. München et al. K.G. Saur, 179-188
Gaus, Wilhelm: Dokumentations- und Ordnungslehre, Theorie und Praxis des Information Retrieval, Berlin, 1995
Links
Virtuelles Handbuch Informationswissenschaft: Information Retrieval [[1]]
Virtuelles Handbuch Informationswissenschaft: Automatische und intellektuelle Indexierung [[2]]
Harald H. Zimmermann: Automatische Indexierung und elektronische Thesauri. [[3]]
Capurro, Rafael (2000): Einführung in die Informationswissenschaft. Kap. 5: Wissenserschließung und -darstellung: indexieren: [[4]]