Indexierung: Unterschied zwischen den Versionen

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Zur Navigation springen Zur Suche springen
K
Zeile 1: Zeile 1:
Unter Indexieren versteht man Methoden und Verfahren der Informationserschließung, um den Inhalt von Dokumenten oder anderen Objekten zu beschreiben. Inhalte von Dokumenten sollen so aufbereitet und mit einer [[Dokumentationssprache]] beschrieben werden, dass bei einem späteren [[Information Retrieval|Informationsretrieval]] bei einer entsprechenden, mit Hilfe der Dokumentationssprache formulierten Suchanfrage die relevanten Dokumente geliefert werden.
+
{| border="1" cellspacing="0" cellpadding="5" style="border-collapse:collapse;" align="center" width="80%" style="background:#E8F2FF;" bgcolor="#E8F2FF"
 +
|-
 +
|Als Indexierung bezeichnet man beim Information-Retrieval die Zuordnung von Deskriptoren aus einem Thesaurus oder Schlagwortkatalog bzw. aus einer Notationen einer Klassifikation zu einem Dokument zur Erschließung der darin umfassenden Sachverhalte.
 +
|}
 +
<br>
  
Die Dokumente bzw. Dokumentmengen werden inhaltlich durch Deskriptoren oder formal durch [[Notation|Notationen]] beschrieben (bzw. repräsentiert).
+
==Was kann man indexieren?==
  
Man unterscheidet zwischen [[Automatische Indexierung|automatischen]], computergestützten und [[Intellektuelle Indexierung|intellektuellen]] Verfahren zur Bestimmung der Indexelemente. Zudem wird unterschieden zwischen Freitextverfahren, in denen Indexelemente frei vergeben werden dürfen, und thesaurusbasierten Verfahren, in denen nur Deskriptoren aus einem vorgegebenen Vokabular vergeben werden dürfen.
+
Generell ist es möglich unterschiedlichste Arten von Dokumenten zu indexieren. Im allgemeinen spricht man jedoch von der Indexierung von Textdokumenten bzw. von Dokumenten, die zu (größeren) Teilen aus Text bestehen. Es gibt aber auch Verfahren andere Dokumenttypen wie z.B. Bilder, Audio- oder Videodaten zu indexieren.
 +
Im folgenden Artikel wird die Indexierung von Textdokumenten betrachtet.
 +
 
 +
==Wozu dient Indexieren?==
 +
 
 +
Sollen (grosse) Dokumente auf den Weg in einen großen (unübersichtlichen) Pool – z.B. das Internet – geschickt werden, so besteht im allgemeinen der Wunsch, sie dort (möglichst einfach) wieder aufzufinden. Meist geschieht dieses Auffinden mithilfe von Suchmaschinen.
 +
Doch damit einen Suchmaschine – gleich ob in einer kleinen Datenbank, einem großen Netzwerk oder dem Internet – Dokumente (effizient) wieder auffinden kann muss Sie Informationen über dieses haben. Diese Information über Daten ([[Metadaten]] genannt) werden an das Dokument angehängt und sind für den Benutzer (in der Regel) beim rezipieren des Dokuments nicht sichtbar.
 +
Die Suchmaschine jedoch wertet diese Daten (beim Aufnehmen des Dokuments in ihre Suchdatenbank) aus und Versucht somit beim Abarbeiten von Suchanfragen dem Benutzer möglichst optimale Ergebnisse zu liefern.
 +
 
 +
==Wie werden Texte indexiert?==
 +
 
 +
Bei der Indexierung unterscheidet man zwischen drei verschiedenen Verfahren:
 +
 
 +
#[[intellektuelle Indexierung]]
 +
#[[automatische Indexierung]]
 +
#[[Computer gestützte Indexierung]]
 +
 
 +
In der Regel ist intellektuelles Indexieren am zeitaufwendigsten und somit am teuersten. Die Qualität eines guten intellektuell erstellten Indexes kann jedoch bislang von keinem automatischen System erreicht werden und die Suchergebnisse sind daher in der Regel für einen Informationssuchenden am zufriedenstellensten wenn ein Text zuvor intellektuell indexiert wurde.
 +
Automatisches indexieren ist dafür deutlich schneller und somit billiger.
 +
Computer gestütztes Indexieren ist ein Verfahren, das die beiden anderen kombiniert und versprich somit einen Kompromiss aus Indexierungsaufwand und Qualität des Indexes.
 +
 
 +
Generell gibt die DIN 31623 eine Empfehlung wie Indexierung zu vonstatten gehen sollte.
 +
 
 +
==Was geschieht beim Indexieren?==
 +
 
 +
Gleich welche Art von Indexierung betrachtet wird ist das Ergebnis das gleiche: Dem Dokument werden [[Metadaten]] angehängt, die es beschreiben und somit maschinenlesbar machen. Diese [[Metadaten]] enthalten sogenannte [[#Deskriptoren Ermittlung|Deskriptoren]]. Das sind [[Stichwörter]] oder [[Schlagwörter]] die den Inhalt des Textes beschreiben sollen.
 +
Wie werden nun diese Deskriptoren - gleich bei welcher Art des Indexierens ermittelt?
 +
 
 +
==Was sollte man beachten, wenn man Texte indexiert?==
 +
 
 +
Schlagwörter sollten aus einem kontrollierten Vokabular (z.B der Schlagwortnormdatei) oder einer anderen Dokumentationssprache benutzt werden. Weiterhin sollte der Indexierer über möglichst gute Textkenntnis verfügen, sich in die Lage des Informationssuchenden versetzen können und über ein gewisses Verständnis für die Arbeitsweise von Suchmaschinen verfügen.
 +
 
 +
==Wie sieht also die Indexierung in der Praxis aus?==
 +
 
 +
Nach wie vor trifft man fast ausschließlich Freitextsysteme mit auf das Fachgebiet beschränkten Stopwortlisten an. Und: die Qualität automatischen Indexierens reicht lange noch nicht an das eines guten Indexierers heran.
 +
Solle automtisches Indexieren jemals die Qualität intellektuellen Indexierens erreichen, oder gar verbessern so ist unter Berücksichtigung der wohl noch weitergehenden Enticklung momentaner "state of the art" - Metoden und trägt man dem "Moorschen
 +
Gesetz" Rechnung so ist die Weiterentwicklung effizienter morphosyntaktischer Verfahren evtl. eine erfolgsversprechende Methode….
  
 
'''Literatur'''
 
'''Literatur'''

Version vom 8. April 2006, 19:29 Uhr

Als Indexierung bezeichnet man beim Information-Retrieval die Zuordnung von Deskriptoren aus einem Thesaurus oder Schlagwortkatalog bzw. aus einer Notationen einer Klassifikation zu einem Dokument zur Erschließung der darin umfassenden Sachverhalte.


Was kann man indexieren?

Generell ist es möglich unterschiedlichste Arten von Dokumenten zu indexieren. Im allgemeinen spricht man jedoch von der Indexierung von Textdokumenten bzw. von Dokumenten, die zu (größeren) Teilen aus Text bestehen. Es gibt aber auch Verfahren andere Dokumenttypen wie z.B. Bilder, Audio- oder Videodaten zu indexieren. Im folgenden Artikel wird die Indexierung von Textdokumenten betrachtet.

Wozu dient Indexieren?

Sollen (grosse) Dokumente auf den Weg in einen großen (unübersichtlichen) Pool – z.B. das Internet – geschickt werden, so besteht im allgemeinen der Wunsch, sie dort (möglichst einfach) wieder aufzufinden. Meist geschieht dieses Auffinden mithilfe von Suchmaschinen. Doch damit einen Suchmaschine – gleich ob in einer kleinen Datenbank, einem großen Netzwerk oder dem Internet – Dokumente (effizient) wieder auffinden kann muss Sie Informationen über dieses haben. Diese Information über Daten (Metadaten genannt) werden an das Dokument angehängt und sind für den Benutzer (in der Regel) beim rezipieren des Dokuments nicht sichtbar. Die Suchmaschine jedoch wertet diese Daten (beim Aufnehmen des Dokuments in ihre Suchdatenbank) aus und Versucht somit beim Abarbeiten von Suchanfragen dem Benutzer möglichst optimale Ergebnisse zu liefern.

Wie werden Texte indexiert?

Bei der Indexierung unterscheidet man zwischen drei verschiedenen Verfahren:

  1. intellektuelle Indexierung
  2. automatische Indexierung
  3. Computer gestützte Indexierung

In der Regel ist intellektuelles Indexieren am zeitaufwendigsten und somit am teuersten. Die Qualität eines guten intellektuell erstellten Indexes kann jedoch bislang von keinem automatischen System erreicht werden und die Suchergebnisse sind daher in der Regel für einen Informationssuchenden am zufriedenstellensten wenn ein Text zuvor intellektuell indexiert wurde. Automatisches indexieren ist dafür deutlich schneller und somit billiger. Computer gestütztes Indexieren ist ein Verfahren, das die beiden anderen kombiniert und versprich somit einen Kompromiss aus Indexierungsaufwand und Qualität des Indexes.

Generell gibt die DIN 31623 eine Empfehlung wie Indexierung zu vonstatten gehen sollte.

Was geschieht beim Indexieren?

Gleich welche Art von Indexierung betrachtet wird ist das Ergebnis das gleiche: Dem Dokument werden Metadaten angehängt, die es beschreiben und somit maschinenlesbar machen. Diese Metadaten enthalten sogenannte Deskriptoren. Das sind Stichwörter oder Schlagwörter die den Inhalt des Textes beschreiben sollen. Wie werden nun diese Deskriptoren - gleich bei welcher Art des Indexierens ermittelt?

Was sollte man beachten, wenn man Texte indexiert?

Schlagwörter sollten aus einem kontrollierten Vokabular (z.B der Schlagwortnormdatei) oder einer anderen Dokumentationssprache benutzt werden. Weiterhin sollte der Indexierer über möglichst gute Textkenntnis verfügen, sich in die Lage des Informationssuchenden versetzen können und über ein gewisses Verständnis für die Arbeitsweise von Suchmaschinen verfügen.

Wie sieht also die Indexierung in der Praxis aus?

Nach wie vor trifft man fast ausschließlich Freitextsysteme mit auf das Fachgebiet beschränkten Stopwortlisten an. Und: die Qualität automatischen Indexierens reicht lange noch nicht an das eines guten Indexierers heran. Solle automtisches Indexieren jemals die Qualität intellektuellen Indexierens erreichen, oder gar verbessern so ist unter Berücksichtigung der wohl noch weitergehenden Enticklung momentaner "state of the art" - Metoden und trägt man dem "Moorschen Gesetz" Rechnung so ist die Weiterentwicklung effizienter morphosyntaktischer Verfahren evtl. eine erfolgsversprechende Methode….

Literatur

Salton, Gerard; McGill, Michael J.: Information Retrieval: Grundlegendes für Informationswissenschaftler. - Hamburg [u.a.]: McGraw-Hill, 1987.

Knorz, G. (2004). Informationsaufbereitung II: Indexieren. In: Kuhlen/Seeger/Strauch (Hrsg., 1997): Grundlagen der praktischen Information und Dokumentation. München et al. K.G. Saur, 179-188

Gaus, Wilhelm: Dokumentations- und Ordnungslehre, Theorie und Praxis des Information Retrieval, Berlin, 1995

Links

Virtuelles Handbuch Informationswissenschaft: Information Retrieval [[1]]

Virtuelles Handbuch Informationswissenschaft: Automatische und intellektuelle Indexierung [[2]]

Harald H. Zimmermann: Automatische Indexierung und elektronische Thesauri. [[3]]

Capurro, Rafael (2000): Einführung in die Informationswissenschaft. Kap. 5: Wissenserschließung und -darstellung: indexieren: [[4]]