Indexierung: Unterschied zwischen den Versionen
Zeile 32: | Zeile 32: | ||
=Was geschieht beim Indexieren?= | =Was geschieht beim Indexieren?= | ||
− | Dem Dokument werden [[Metadaten]] angehängt, die es beschreiben und somit maschinenlesbar machen. Diese [[Metadaten]] enthalten | + | Dem Dokument werden [[Metadaten]] angehängt, die es beschreiben und somit maschinenlesbar machen. Diese [[Metadaten]] enthalten so genannte [[Deskriptoren|Deskriptoren]]. Das sind [[Stichwörter]] oder [[Schlagwörter]] die den Inhalt des Textes beschreiben. |
Wie werden nun diese Deskriptoren - gleich bei welcher Art des Indexierens ermittelt? | Wie werden nun diese Deskriptoren - gleich bei welcher Art des Indexierens ermittelt? | ||
Version vom 13. Mai 2006, 18:47 Uhr
Unter Indexieren versteht man Methoden und Verfahren der Informationserschließung, um den Inhalt von Dokumenten oder anderen Objekten zu beschreiben. Inhalte von Dokumenten sollen so aufbereitet und mit einer Dokumentationssprache beschrieben werden, dass bei einem späteren Informationsretrieval bei einer entsprechenden, mit Hilfe der Dokumentationssprache formulierten Suchanfrage die relevanten Dokumente geliefert werden.
Die Dokumente bzw. Dokumentmengen werden inhaltlich durch Deskriptoren oder formal durch Notationen beschrieben (bzw. repräsentiert). |
Inhaltsverzeichnis
Was kann man indexieren?
Generell ist es möglich unterschiedlichste Arten von Dokumenten zu indexieren. Im Allgemeinen spricht man jedoch von der Indexierung von Textdokumenten bzw. von Dokumenten, die zu (größeren) Teilen aus Text bestehen. Es gibt aber auch Verfahren andere Dokumenttypen wie z.B. Bilder, Audio- oder Videodaten zu indexieren. Im folgenden Artikel wird die Indexierung von Textdokumenten betrachtet.
Wozu dient Indexieren?
Sollen (große) Dokumente auf den Weg in einen großen (unübersichtlichen) Pool - z.B. das Internet - geschickt werden, so besteht im Allgemeinen der Wunsch sie dort (möglichst einfach) wieder aufzufinden. Meist geschieht dieses Auffinden mit Hilfe von Suchmaschinen. Doch damit eine Suchmaschine - gleich ob in einer kleinen Datenbank, einem großen Netzwerk oder dem Internet - Dokumente (effizient) wieder auffinden kann, muss sie Informationen über dieses Dokument haben. Diese Information über Daten (Metadaten genannt) werden an das Dokument angehängt und sind für den Benutzer (in der Regel) beim rezipieren des Dokuments nicht sichtbar. Die Suchmaschine jedoch wertet diese Daten (beim Aufnehmen des Dokuments in ihre Suchdatenbank) aus und versucht somit beim Abarbeiten von Suchanfragen dem Benutzer möglichst optimale Ergebnisse zu liefern.
Wie werden Texte indexiert?
Bei der Indexierung unterscheidet man zwischen drei verschiedenen Verfahren:
In der Regel ist intellektuelles Indexieren am zeitaufwendigsten und somit am teuersten. Die Qualität eines guten, intellektuell erstellten Indexes kann jedoch bislang von keinem automatischen System erreicht werden und die Suchergebnisse sind daher in der Regel für einen Informationssuchenden am zufriedenstellensten wenn ein Text zuvor intellektuell indexiert wurde. Automatisches Indexieren ist dafür deutlich schneller und somit billiger. Computer gestütztes Indexieren ist ein Verfahren, das die beiden anderen kombiniert. Es verspricht somit einen Kompromiss aus Indexierungsaufwand und Qualität des Indexes.
Generell gibt die DIN 31623 eine Empfehlung wie Indexierung zu vonstatten gehen sollte.
Was geschieht beim Indexieren?
Dem Dokument werden Metadaten angehängt, die es beschreiben und somit maschinenlesbar machen. Diese Metadaten enthalten so genannte Deskriptoren. Das sind Stichwörter oder Schlagwörter die den Inhalt des Textes beschreiben. Wie werden nun diese Deskriptoren - gleich bei welcher Art des Indexierens ermittelt?
Was sollte man beachten, wenn man Texte indexiert?
Schlagwörter sollten aus einem kontrollierten Vokabular (z.B. der Schlagwortnormdatei) oder einer anderen Dokumentationssprache benutzt werden. Weiterhin sollte der Indexierer über möglichst gute Textkenntnis verfügen, sich in die Lage des Informationssuchenden versetzen können und über ein gewisses Verständnis für die Arbeitsweise von Suchmaschinen verfügen.
Wie sieht also die Indexierung in der Praxis aus?
Eine Suchmaschine kann nur zufrieden stellende Ergebnisse liefern, wenn sie auf einen guten Index zurückgreifen kann. Ein wirklich guter Index kann jedoch zur Zeit nur von einem Indexierer aus Fleisch und Blut erstellt werden. Daher findet man in kostenpflichtigen Datenbanken (Firmen-, Universitäts- oder Bibliotheksdatenbanken) nach wie vor intellektuell- oder zumindest computergestützt erstellte Indexe.
Anders sieht es jedoch im Internet aus. Hier treten täglich unzählige, neue Dokumente an die Öffentlichkeit heran, die indexiert werden sollen. Eine intellektuelle Indexierung ist daher für Suchmaschinenbetreiber sowohl aus finanziellen als auch aus zeitlichen Gründen nicht möglich.
Hier bleibt also nur der Weg des automatischen Indexierens.
Als Verfahren trifft man dabei nach wie vor hauptsächlich Freitextsysteme an. Sie verwenden meist auf das Fachgebiet beschränkten Stoppwortlisten.
Um die Qualität automatischer Systeme (erheblich) steigern zu können ist jedoch ein Umstieg auf alternative Verfahren notwendig.
Daher treiben Suchmaschinenhersteller die Entwicklung alternativer Technologien wie die des Morphosyntaktischen Verfahrens voran. Es ist jedoch nach aktuellem Kenntnisstand kaum vorstellbar, dass jemals ein automatisches Verfahren die Qualität des intellektuellen Indexierens erreichen kann, wenn Texte nicht zuverlässig und effizient semantisch analysiert werden können. Die Maschine muss also eine Repräsentation des Inhaltes also des Textes erstellen, den Text quasi "verstehen", um sinnvoll Deskriptoren wählen zu können. Auch bei menschlichem Indexieren zeigt sich schließlich, dass ein Indexierer einen Text "verstehen" muss - ja er sollte sogar über weiteres Hintergrundwissen verfügen, um einen soliden Index zu erstellen.
Doch bis dahin muss wohl noch viel (Grundlagen)Forschung betrieben werden. Nach wie vor ist die mangelnde Rechenperformance ein großes Problem. Das "Moorsche Gesetz" lässt zwar hoffen, dass sich Rechnergeschwindigkeitsengpässe mittelfristig in Wohlgefallen auflösen, aber wenn nicht auch die Techniken der Analyse von Texten entscheidend verbessert werden und der reibungslose Transfer der Analyseergebnisse in eine semantische Repräsentation gelingt, lässt die Realisierung des Traums vom Web 2.0 noch ein wenig auf sich warten....
Literatur
Salton, Gerard; McGill, Michael J.: Information Retrieval: Grundlegendes für Informationswissenschaftler. - Hamburg [u.a.]: McGraw-Hill, 1987.
Knorz, G. (2004). Informationsaufbereitung II: Indexieren. In: Kuhlen/Seeger/Strauch (Hrsg., 1997): Grundlagen der praktischen Information und Dokumentation. München et al. K.G. Saur, 179-188
Gaus, Wilhelm: Dokumentations- und Ordnungslehre, Theorie und Praxis des Information Retrieval, Berlin, 1995
Links
Virtuelles Handbuch Informationswissenschaft: Information Retrieval [[1]]
Virtuelles Handbuch Informationswissenschaft: Automatische und intellektuelle Indexierung [[2]]
Harald H. Zimmermann: Automatische Indexierung und elektronische Thesauri. [[3]]
Capurro, Rafael (2000): Einführung in die Informationswissenschaft. Kap. 5: Wissenserschließung und -darstellung: indexieren: [[4]]