Indexierung: Unterschied zwischen den Versionen

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Zur Navigation springen Zur Suche springen
Zeile 40: Zeile 40:
 
=Wie sieht also die Indexierung in der Praxis aus?=
 
=Wie sieht also die Indexierung in der Praxis aus?=
  
Nach wie vor trifft man fast ausschließlich Freitextsysteme mit auf das Fachgebiet beschränkten Stopwortlisten an. Und: die Qualität automatischen Indexierens reicht lange noch nicht an das eines guten Indexierers heran.
+
 
Solle automatisches Indexieren jemals die Qualität intellektuellen Indexierens erreichen, oder gar verbessern so ist unter Berücksichtigung der wohl noch weitergehenden Entwicklung momentaner "state of the art" - Methoden und trägt man dem [[Moorsches Gesetz|"Moorschen
+
*Nach wie vor trifft man fast ausschließlich Freitextsysteme an. Wobei meist auf das Fachgebiet beschränkten Stopwortlisten eingesetzt werden.
Gesetz"]] Rechnung so ist die Weiterentwicklung effizienter morphosyntaktischer Verfahren evtl. eine erfolgsversprechende Methode….
+
*Die Qualität automatischen Indexierens reicht lange noch nicht an die eines guten Indexierers heran.
 +
 
 +
{| border="1" cellspacing="0" cellpadding="5" style="border-collapse:collapse;" align="center" width="80%" style="background:#CCFF99;" bgcolor="#CCFF99"
 +
|-
 +
|Momentan werden Texte automatisch indexiert, da dieses Verfahren am schnellsten und billigsten ist. Die Flut an Daten die täglich ins Internet strömt macht daher intelektuelles Indexieren in der Praxis unmöglich. Um aber trotzdem zufriedenstellende Suchergebnisse zu erhalten müsssten automatische Systeme langfristig die Qualität intellektuellen Indexierens erreichen. Ein grosses Problem stellt hier nach wie vor mangelnde Rechenleistung der Indexierungsysteme dar. Träfe das [[Moorsches Gesetz|"Moorschen Gesetz"]] auch in Zukunft zu, so zumindest in diesem Punkt mittelfristig eine Lösung in Sicht. Unter momentaner "state of the art" - Methoden ist dann die Weiterentwicklung effizienter morphosyntaktischer Verfahren evtl. eine erfolgsversprechende Methode….
 +
|}
  
 
'''Literatur'''
 
'''Literatur'''

Version vom 12. April 2006, 18:20 Uhr

Als Indexierung bezeichnet man beim Information-Retrieval die Zuordnung von Deskriptoren aus einem Thesaurus oder Schlagwortkatalog bzw. aus einer Notationen einer Klassifikation zu einem Dokument zur Erschließung der darin umfassenden Sachverhalte.


Was kann man indexieren?

Generell ist es möglich unterschiedlichste Arten von Dokumenten zu indexieren. Im allgemeinen spricht man jedoch von der Indexierung von Textdokumenten bzw. von Dokumenten, die zu (größeren) Teilen aus Text bestehen. Es gibt aber auch Verfahren andere Dokumenttypen wie z.B. Bilder, Audio- oder Videodaten zu indexieren. Im folgenden Artikel wird die Indexierung von Textdokumenten betrachtet.

Wozu dient Indexieren?

Sollen (grosse) Dokumente auf den Weg in einen großen (unübersichtlichen) Pool - z.B. das Internet - geschickt werden, so besteht im allgemeinen der Wunsch, sie dort (möglichst einfach) wieder aufzufinden. Meist geschieht dieses Auffinden mithilfe von Suchmaschinen. Doch damit einen Suchmaschine - gleich ob in einer kleinen Datenbank, einem großen Netzwerk oder dem Internet - Dokumente (effizient) wieder auffinden kann muss sie Informationen über dieses haben. Diese Information über Daten (Metadaten genannt) werden an das Dokument angehängt und sind für den Benutzer (in der Regel) beim rezipieren des Dokuments nicht sichtbar. Die Suchmaschine jedoch wertet diese Daten (beim Aufnehmen des Dokuments in ihre Suchdatenbank) aus und versucht somit beim Abarbeiten von Suchanfragen dem Benutzer möglichst optimale Ergebnisse zu liefern.

Wie werden Texte indexiert?

Bei der Indexierung unterscheidet man zwischen drei verschiedenen Verfahren:

  1. intellektuelle Indexierung
  2. automatische Indexierung
  3. Computer gestützte Indexierung

In der Regel ist intellektuelles Indexieren am zeitaufwendigsten und somit am teuersten. Die Qualität eines guten, intellektuell erstellten Indexes kann jedoch bislang von keinem automatischen System erreicht werden und die Suchergebnisse sind daher in der Regel für einen Informationssuchenden am zufriedenstellensten wenn ein Text zuvor intellektuell indexiert wurde. Automatisches indexieren ist dafür deutlich schneller und somit billiger. Computer gestütztes Indexieren ist ein Verfahren das die beiden anderen kombiniert. Es versprich somit einen Kompromiss aus Indexierungsaufwand und Qualität des Indexes.

Generell gibt die DIN 31623 eine Empfehlung wie Indexierung zu vonstatten gehen sollte.

Was geschieht beim Indexieren?

Dem Dokument werden Metadaten angehängt, die es beschreiben und somit maschinenlesbar machen. Diese Metadaten enthalten sogenannte Deskriptoren. Das sind Stichwörter oder Schlagwörter die den Inhalt des Textes beschreiben sollen. Wie werden nun diese Deskriptoren - gleich bei welcher Art des Indexierens ermittelt?

Was sollte man beachten, wenn man Texte indexiert?

Schlagwörter sollten aus einem kontrollierten Vokabular (z.B. der Schlagwortnormdatei) oder einer anderen Dokumentationssprache benutzt werden. Weiterhin sollte der Indexierer über möglichst gute Textkenntnis verfügen, sich in die Lage des Informationssuchenden versetzen können und über ein gewisses Verständnis für die Arbeitsweise von Suchmaschinen verfügen.

Wie sieht also die Indexierung in der Praxis aus?

  • Nach wie vor trifft man fast ausschließlich Freitextsysteme an. Wobei meist auf das Fachgebiet beschränkten Stopwortlisten eingesetzt werden.
  • Die Qualität automatischen Indexierens reicht lange noch nicht an die eines guten Indexierers heran.
Momentan werden Texte automatisch indexiert, da dieses Verfahren am schnellsten und billigsten ist. Die Flut an Daten die täglich ins Internet strömt macht daher intelektuelles Indexieren in der Praxis unmöglich. Um aber trotzdem zufriedenstellende Suchergebnisse zu erhalten müsssten automatische Systeme langfristig die Qualität intellektuellen Indexierens erreichen. Ein grosses Problem stellt hier nach wie vor mangelnde Rechenleistung der Indexierungsysteme dar. Träfe das "Moorschen Gesetz" auch in Zukunft zu, so zumindest in diesem Punkt mittelfristig eine Lösung in Sicht. Unter momentaner "state of the art" - Methoden ist dann die Weiterentwicklung effizienter morphosyntaktischer Verfahren evtl. eine erfolgsversprechende Methode….

Literatur

Salton, Gerard; McGill, Michael J.: Information Retrieval: Grundlegendes für Informationswissenschaftler. - Hamburg [u.a.]: McGraw-Hill, 1987.

Knorz, G. (2004). Informationsaufbereitung II: Indexieren. In: Kuhlen/Seeger/Strauch (Hrsg., 1997): Grundlagen der praktischen Information und Dokumentation. München et al. K.G. Saur, 179-188

Gaus, Wilhelm: Dokumentations- und Ordnungslehre, Theorie und Praxis des Information Retrieval, Berlin, 1995

Links

Virtuelles Handbuch Informationswissenschaft: Information Retrieval [[1]]

Virtuelles Handbuch Informationswissenschaft: Automatische und intellektuelle Indexierung [[2]]

Harald H. Zimmermann: Automatische Indexierung und elektronische Thesauri. [[3]]

Capurro, Rafael (2000): Einführung in die Informationswissenschaft. Kap. 5: Wissenserschließung und -darstellung: indexieren: [[4]]