Indexierung

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Zur Navigation springen Zur Suche springen
Unter Indexieren versteht man Methoden und Verfahren der Informationserschließung, um den Inhalt von Dokumenten oder anderen Objekten zu beschreiben. Inhalte von Dokumenten sollen so aufbereitet und mit einer Dokumentationssprache beschrieben werden, dass bei einem späteren Informationsretrieval bei einer entsprechenden, mit Hilfe der Dokumentationssprache formulierten, Suchanfrage die relevanten Dokumente geliefert werden.

Die Dokumente bzw. Dokumentmengen werden inhaltlich durch Deskriptorenoder formal durch Notationen beschrieben (bzw. repräsentiert).


Was kann man indexieren?

Generell ist es möglich unterschiedlichste Arten von Dokumenten zu indexieren. Im Allgemeinen spricht man jedoch von der Indexierung von Textdokumenten bzw. von Dokumenten, die zu (größeren) Teilen aus Text bestehen. Es gibt aber auch Verfahren andere Dokumenttypen wie z.B. Bilder, Audio- oder Videodaten zu indexieren. Im folgenden Artikel wird die Indexierung von Textdokumenten betrachtet.

Wozu dient Indexieren?

Sollen (große) Dokumente auf den Weg in einen großen (unübersichtlichen) Pool - z.B. das Internet - geschickt werden, so besteht im Allgemeinen der Wunsch sie dort (möglichst einfach) wieder aufzufinden. Meist geschieht dieses Auffinden mit Hilfe von Suchmaschinen. Doch damit eine Suchmaschine - gleich ob in einer kleinen Datenbank, einem großen Netzwerk oder dem Internet - Dokumente (effizient) wieder auffinden kann, muss sie Informationen über dieses Dokument haben. Diese Information über Daten (Metadaten genannt) werden an das Dokument angehängt und sind für den Benutzer (in der Regel) beim rezipieren des Dokuments nicht sichtbar. Die Suchmaschine jedoch wertet diese Daten (beim Aufnehmen des Dokuments in ihre Suchdatenbank) aus und versucht somit beim Abarbeiten von Suchanfragen dem Benutzer möglichst optimale Ergebnisse zu liefern.

Wie werden Texte indexiert?

Bei der Indexierung unterscheidet man zwischen drei verschiedenen Verfahren:

  1. intellektuelle Indexierung
  2. automatische Indexierung
  3. Computergestützte Indexierung

In der Regel ist intellektuelles Indexieren am zeitaufwendigsten und somit am teuersten. Die Qualität eines guten, intellektuell erstellten Indexes kann jedoch bislang von keinem automatischen System erreicht werden und die Suchergebnisse sind daher in der Regel für einen Informationssuchenden am zufriedenstellendsten, wenn ein Text zuvor intellektuell indexiert wurde.
Automatisches Indexieren ist dafür deutlich schneller und somit billiger.
Computer gestütztes Indexieren ist ein Verfahren, das die beiden anderen kombiniert. Es verspricht somit einen Kompromiss aus Indexierungsaufwand und Qualität des Indexes.

Generell gibt die DIN 31623 eine Empfehlung, wie Indexierung vonstatten gehen sollte.

Was geschieht beim Indexieren?

Dem Dokument werden Metadaten angehängt, die es beschreiben und somit maschinenlesbar machen. Diese Metadaten enthalten so genannte Deskriptoren. Das sind Stichwörter oder Schlagwörter, die den Inhalt des Textes beschreiben. Wie werden nun diese Deskriptoren - unabhängig von der Art des Indexierens - ermittelt?

Arten der Indierung

Gleichordnende Indexierung (coordinate indexing)

Deskriptoren und Notationen werden unabhängig von ihrem hierarchischen Niveau und von ihren dokumentspezifischen Zusammenhängen gleichrangig nebeneinander gestellt und dem betreffenden Dokument zugeordnet. Beim Retrieval kann dann nach einzelnen Deskriptoren oder mit logischen Verknüpfungen gesucht werden.

Syntaktische Indexierung (syntactic indexing)

Zusätzlich zur gleichordnenden Indexierung wird bei der Deskriptorenvergabe deren syntaktische Beziehung zueinander gespeichert. Beispiele sind Adjektiv/Substantiv-Verbindungen („juristische Person“) oder präpositionale Attribute („Anspruch auf Vergütung“).

Was sollte man beachten, wenn man Texte indexiert?

Schlagwörter sollten aus einem kontrollierten Vokabular (z.B. der Schlagwortnormdatei) oder einer anderen Dokumentationssprache benutzt werden. Weiterhin sollte der Indexierer über möglichst gute Textkenntnis verfügen, sich in die Lage des Informationssuchenden versetzen können und über ein gewisses Verständnis für die Arbeitsweise von Suchmaschinen verfügen.

Wie sieht also die Indexierung in der Praxis aus?

Eine Suchmaschine kann nur zufrieden stellende Ergebnisse liefern, wenn sie auf einen guten Index zurückgreifen kann. Ein wirklich guter Index kann jedoch zur Zeit nur von einem Indexierer aus Fleisch und Blut erstellt werden. Daher findet man in kostenpflichtigen Datenbanken (Firmen-, Universitäts- oder Bibliotheksdatenbanken) nach wie vor intellektuell- oder zumindest computergestützt erstellte Indizes.
Anders sieht es jedoch im Internet aus. Hier treten täglich unzählige, neue Dokumente an die Öffentlichkeit heran, die indexiert werden sollen. Eine intellektuelle Indexierung ist daher für Suchmaschinenbetreiber sowohl aus finanziellen als auch aus zeitlichen Gründen nicht möglich. Hier bleibt also nur der Weg des automatischen Indexierens.
Als Verfahren trifft man dabei nach wie vor hauptsächlich Freitextsysteme an. Sie verwenden meist, auf das Fachgebiet beschränkte, Stoppwortlisten.
Um die Qualität automatischer Systeme (erheblich) steigern zu können, ist jedoch ein Umstieg auf alternative Verfahren notwendig.
Daher treiben Suchmaschinenhersteller die Entwicklung alternativer Technologien, wie die des Morphosyntaktischen Verfahrens, voran. Es ist jedoch nach aktuellem Kenntnisstand kaum vorstellbar, dass jemals ein automatisches Verfahren die Qualität des intellektuellen Indexierens erreichen kann, solange Texte nicht zuverlässig und effizient semantisch analysiert werden können. Die Maschine muss also eine Repräsentation des Inhaltes, sprich des Textes, erstellen und den Text quasi "verstehen", um sinnvoll Deskriptoren wählen zu können. Auch bei menschlichem Indexieren zeigt sich schließlich, dass ein Indexierer einen Text "verstehen" muss - ja er sollte sogar über weiteres Hintergrundwissen verfügen, um einen soliden Index zu erstellen.
Doch bis dahin muss wohl noch viel (Grundlagen)Forschung betrieben werden. Nach wie vor ist die mangelnde Rechenperformance ein großes Problem. Das "Moorsche Gesetz" lässt zwar hoffen, dass sich Rechnergeschwindigkeitsengpässe mittelfristig in Wohlgefallen auflösen, aber wenn nicht auch die Techniken der Analyse von Texten entscheidend verbessert werden und der reibungslose Transfer der Analyseergebnisse in eine semantische Repräsentation gelingt, lässt die Realisierung des Traums vom Web 2.0 noch ein wenig auf sich warten....

Literatur

  • Gaus, Wilhelm (1995): Dokumentations- und Ordnungslehre, Theorie und Praxis des Information Retrieval, Berlin
  • Knorz, G. (2004). Informationsaufbereitung II: Indexieren. In: Kuhlen/Seeger/Strauch (Hrsg., 1997): Grundlagen der praktischen Information und Dokumentation. München et al. K.G. Saur, 179-188
  • Salton, Gerard; McGill, Michael J. (1987): Information Retrieval. Grundlegendes für Informationswissenschaftler. Hamburg [u.a.]: McGraw-Hill

Links

  • Capurro, Rafael (2000): Einführung in die Informationswissenschaft. Kap. 5. Wissenserschließung und -darstellung: Indexieren. Online verfügbar unter: [[1]]
  • Virtuelles Handbuch Informationswissenschaft: Information Retrieval. Online verfügbar unter: [[2]]
  • Virtuelles Handbuch Informationswissenschaft: Automatische und intellektuelle Indexierung. Online verfügbar unter: [[3]]
  • Zimmermann, Harald H.: Automatische Indexierung und elektronische Thesauri. Online verfügbar unter: [[4]]

Verwandte Begriffe