Indexierung

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Wechseln zu: Navigation, Suche
Unter 'Indexieren' versteht man eine Methode der Informationserschließung, die den Inhalt von Dokumenten oder anderen Objekten durch Stich- und Schlagwörter beschreibt. Inhalte von Dokumenten sollen so aufbereitet und mit einer Dokumentationssprache beschrieben werden, dass bei einem späteren Informationsretrieval bei einer entsprechenden, mit Hilfe der Dokumentationssprache formulierten, Suchanfrage die relevanten Dokumente geliefert werden.

Die Dokumente bzw. Dokumentmengen werden inhaltlich durch Deskriptoren oder formal durch Notationen beschrieben (bzw. repräsentiert).


Was kann man indexieren?

Generell ist es möglich unterschiedlichste Arten von Dokumenten zu indexieren. Im Allgemeinen spricht man jedoch von der Indexierung von Textdokumenten bzw. von Dokumenten, die zu (größeren) Teilen aus Text bestehen. Es gibt aber auch Verfahren andere Dokumenttypen wie z.B. Bilder, Audio- oder Videodaten zu indexieren. Im folgenden Artikel wird die Indexierung von Textdokumenten betrachtet.

Wozu dient Indexieren?

Sollen (große) Dokumente auf den Weg in einen großen (unübersichtlichen) Pool - z.B. das Internet - geschickt werden, so besteht im Allgemeinen der Wunsch sie dort (möglichst einfach) wieder aufzufinden. Meist geschieht dieses Auffinden mit Hilfe von Suchmaschinen. Doch damit eine Suchmaschine - gleich ob in einer kleinen Datenbank, einem großen Netzwerk oder dem Internet - Dokumente (effizient) wieder auffinden kann, muss sie Informationen über dieses Dokument haben. Diese Information über Daten (Metadaten genannt) werden an das Dokument angehängt und sind für den Benutzer (in der Regel) beim rezipieren des Dokuments nicht sichtbar. Die Suchmaschine jedoch wertet diese Daten (beim Aufnehmen des Dokuments in ihre Suchdatenbank) aus und versucht somit beim Abarbeiten von Suchanfragen dem Benutzer möglichst optimale Ergebnisse zu liefern.

Wie werden Texte indexiert?

Bei der Indexierung unterscheidet man zwischen drei verschiedenen Verfahren:

  1. intellektuelle Indexierung
  2. automatische Indexierung
  3. Computergestützte Indexierung

In der Regel ist intellektuelles Indexieren am zeitaufwendigsten und somit am teuersten. Die Qualität eines guten, intellektuell erstellten Indexes kann jedoch bislang von keinem automatischen System erreicht werden und die Suchergebnisse sind daher in der Regel für einen Informationssuchenden am zufriedenstellendsten, wenn ein Text zuvor intellektuell indexiert wurde.
Automatisches Indexieren ist dafür deutlich schneller und somit billiger.
Computer gestütztes Indexieren ist ein Verfahren, das die beiden anderen kombiniert. Es verspricht somit einen Kompromiss aus Indexierungsaufwand und Qualität des Indexes.

Generell gibt die DIN 31623 eine Empfehlung, wie Indexierung vonstatten gehen sollte.

Was geschieht beim Indexieren?

Dem Dokument werden Metadaten angehängt, die es beschreiben und somit maschinenlesbar machen. Diese Metadaten enthalten so genannte Deskriptoren. Das sind Stichwörter oder Schlagwörter, die den Inhalt des Textes beschreiben. Wie werden nun diese Deskriptoren - unabhängig von der Art des Indexierens - ermittelt?

Arten der Indierung

Gleichordnende Indexierung (coordinate indexing)

Bei der gleichordnenden Indexierung oder auch koordinierten Indexierung werden die Deskriptoren und Notationen unabhängig von ihrem hierarchischen Niveau und von ihren dokumentspezifischen Zusammenhängen gleichrangig nebeneinander gestellt und dem betreffenden Dokument zugeordnet. Beim Retrieval kann dann nach einzelnen Deskriptoren oder mit logischen Verknüpfungen gesucht werden.

Syntaktische Indexierung (syntactic indexing)

Zusätzlich zur gleichordnenden Indexierung wird bei der Deskriptorenvergabe deren syntaktische Beziehung zueinander gespeichert. Beispiele sind Adjektiv/Substantiv-Verbindungen („juristische Person“) oder präpositionale Attribute („Anspruch auf Vergütung“).

Statistische Verfahren

Im Gegensatz zur Volltextinvertierung (= alle Textwörter werden in den Index aufgenommen) beim Freitextverfahren gibt es bei statistischen Verfahren zwei Grundsätze:

“Nicht alle Terme sind als Indexterme geeignet, eine Auswahl ist erforderlich“ und „nicht alle ausgewählten Terme besitzen die gleiche Wertigkeit hinsichtlich ihrer inhaltlichen Bedeutung, es muss eine Gewichtung vorgenommen werden“.

Die zu klärende Frage ist: „Wann ist ein Term ein guter Indexterm?“, und man versucht sie mit statistischen Mitteln zu beantworten. Grundlage ist der so genannte Termfrequenzansatz. Danach haben zum einen in einem Text häufig auftretende Wörter (Termfrequenz) eine höhere Signifikanz für die Bedeutung eines Textes als Wörter mit geringem Vorkommen. Andererseits haben seltener in einer Dokumentenmenge auftretende Wörter (Dokumentfrequenz) einen höheren Diskriminanzeffekt als häufig vorkommende Wörter, d. h. man kann mit ihnen besser unterscheiden.

Beide Faktoren werden in der so genannten inversen Dokumenthäufigkeit in Beziehung gestellt. Danach weisen wichtige Indexterme eine hohe Frequenz im Dokument bei gleichzeitig niedriger Dokumentfrequenz auf. Eine Verfeinerung kann erfolgen, indem z.B. Wörter in Titeln oder Kapitelüberschriften stärker gewichtet werden.

Bewertungskriterien des Indexierens

Im Bereich des Indexierens verwendet man folgende Bewertungskriterien für die Güte der Deskriptorenvergabe:

  1. Indexierungsbreite: Ausmaß der Abdeckung des fachlichen Inhalts des Dokumentes. Normalerweise wird als Indikator für die Indexierungsbreite die durchschnittliche Anzahl der vergebenen Index Termini pro Dokument verwendet. Eine Steigerung der Indexierungsbreite lässt einen Zuwachs an Recall beim Retrieval erwarten.
  2. Indexierungsspezifität: Eine hohe Indexierungsspezifität liegt vor, wenn die vergebenen Deskriptoren die Themen eines Dokuments sehr spezifisch treffen. Als Indikator für Indexierungstiefe wird üblicherweise die Dokumenthäufigkeit, d.h. die Anzahl aller Dokumente, die diesen Terminus enthalten, der Deskriptoren herangezogen. Eine Steigerung der Spezifität lässt einen Zuwachs an Precision beim Retrieval erwarten.
  3. Indexierungstiefe: Kombination aus Breite und Spezifität. Haben zwei Indexierungsergebnisse desselben Dokuments die gleiche Breite, so ist das Ergebnis tiefer, welches spezifischer ist.

Was sollte man beachten, wenn man Texte indexiert?

Schlagwörter sollten aus einem kontrollierten Vokabular (z.B. der Schlagwortnormdatei) oder einer anderen Dokumentationssprache benutzt werden. Weiterhin sollte der Indexierer über möglichst gute Textkenntnis verfügen, sich in die Lage des Informationssuchenden versetzen können und über ein gewisses Verständnis für die Arbeitsweise von Suchmaschinen verfügen.

Wie sieht also die Indexierung in der Praxis aus?

Eine Suchmaschine kann nur zufrieden stellende Ergebnisse liefern, wenn sie auf einen guten Index zurückgreifen kann. Ein wirklich guter Index kann jedoch zur Zeit nur von einem Indexierer aus Fleisch und Blut erstellt werden. Daher findet man in kostenpflichtigen Datenbanken (Firmen-, Universitäts- oder Bibliotheksdatenbanken) nach wie vor intellektuell- oder zumindest computergestützt erstellte Indizes.
Anders sieht es jedoch im Internet aus. Hier treten täglich unzählige, neue Dokumente an die Öffentlichkeit heran, die indexiert werden sollen. Eine intellektuelle Indexierung ist daher für Suchmaschinenbetreiber sowohl aus finanziellen als auch aus zeitlichen Gründen nicht möglich. Hier bleibt also nur der Weg des automatischen Indexierens.
Als Verfahren trifft man dabei nach wie vor hauptsächlich Freitextsysteme an. Sie verwenden meist, auf das Fachgebiet beschränkte, Stoppwortlisten.
Um die Qualität automatischer Systeme (erheblich) steigern zu können, ist jedoch ein Umstieg auf alternative Verfahren notwendig.
Daher treiben Suchmaschinenhersteller die Entwicklung alternativer Technologien, wie die des Morphosyntaktischen Verfahrens, voran. Es ist jedoch nach aktuellem Kenntnisstand kaum vorstellbar, dass jemals ein automatisches Verfahren die Qualität des intellektuellen Indexierens erreichen kann, solange Texte nicht zuverlässig und effizient semantisch analysiert werden können. Die Maschine muss also eine Repräsentation des Inhaltes, sprich des Textes, erstellen und den Text quasi "verstehen", um sinnvoll Deskriptoren wählen zu können. Auch bei menschlichem Indexieren zeigt sich schließlich, dass ein Indexierer einen Text "verstehen" muss - ja er sollte sogar über weiteres Hintergrundwissen verfügen, um einen soliden Index zu erstellen.
Doch bis dahin muss wohl noch viel (Grundlagen)Forschung betrieben werden. Nach wie vor ist die mangelnde Rechenperformance ein großes Problem. Das Mooresche Gesetz lässt zwar hoffen, dass sich Rechnergeschwindigkeitsengpässe mittelfristig in Wohlgefallen auflösen, aber wenn nicht auch die Techniken der Analyse von Texten entscheidend verbessert werden und der reibungslose Transfer der Analyseergebnisse in eine semantische Repräsentation gelingt, lässt die Realisierung des Traums vom Web 2.0 noch ein wenig auf sich warten....

Literatur

  • Gaus, Wilhelm (1995): Dokumentations- und Ordnungslehre, Theorie und Praxis des Information Retrieval, Berlin
  • Knorz, G. (2004). Informationsaufbereitung II: Indexieren. In: Kuhlen/Seeger/Strauch (Hrsg., 1997): Grundlagen der praktischen Information und Dokumentation. München et al. K.G. Saur, 179-188
  • Salton, Gerard; McGill, Michael J. (1987): Information Retrieval. Grundlegendes für Informationswissenschaftler. Hamburg [u.a.]: McGraw-Hill

Links

  • Capurro, Rafael (2000): Einführung in die Informationswissenschaft. Kap. 5. Wissenserschließung und -darstellung: Indexieren. Online verfügbar unter: [[1]]
  • Virtuelles Handbuch Informationswissenschaft: Information Retrieval. Online verfügbar unter: [[2]]
  • Virtuelles Handbuch Informationswissenschaft: Automatische und intellektuelle Indexierung. Online verfügbar unter: [[3]]
  • Zimmermann, Harald H.: Automatische Indexierung und elektronische Thesauri. Online verfügbar unter: [[4]]

(alle Links zuletzt besucht am 17.08.2010)

Verwandte Begriffe