Automatische Indexierung: Unterschied zwischen den Versionen

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Zur Navigation springen Zur Suche springen
K
Zeile 6: Zeile 6:
  
 
=== Stoppwortliste (Negativliste) ===
 
=== Stoppwortliste (Negativliste) ===
<p>Mit Hilfe einer '''Stoppwortliste''' können z.B. inhaltsleere Wörter ausgeschlossen werden. Das System funktioniert so, dass jedes Wort, das in der Liste enthalten ist, bei der Wahl der Deskriptoren nicht berücksichtigt wird.  
+
<p>Mit Hilfe einer [[stopwort|'''Stoppwortliste''']] können z.B. inhaltsleere Wörter ausgeschlossen werden. Das System funktioniert so, dass jedes Wort, das in der Liste enthalten ist, bei der Wahl der Deskriptoren nicht berücksichtigt wird.  
 
Beispiele dafür sind im allgemeinen Artikel, Präpositionen, Adverbien etc. ...<br>
 
Beispiele dafür sind im allgemeinen Artikel, Präpositionen, Adverbien etc. ...<br>
 
Das Thema der dokumentarischen Bezugseinheit gibt jedoch weitere Stoppwörter vor, so kann in einem Artikel über Informatik das Wort „Programm“ ausgeschlossen werden.</p>
 
Das Thema der dokumentarischen Bezugseinheit gibt jedoch weitere Stoppwörter vor, so kann in einem Artikel über Informatik das Wort „Programm“ ausgeschlossen werden.</p>

Version vom 8. April 2006, 19:35 Uhr

Die automatische Indexierung ist neben der intellektuellen (manuellen) und computergestützten Indexierung eine der Methoden, mit denen Deskriptoren einer Dokumentarischen Bezugseinheit zugeordnet werden können.
Die automatische Indexierung setzt voraus, dass coded informations vorhanden sind. Mit anderen Worten, Zeichenketten, die der Computer bzw. die Software durchsuchen kann.


Stoppwortliste (Negativliste)

Mit Hilfe einer Stoppwortliste können z.B. inhaltsleere Wörter ausgeschlossen werden. Das System funktioniert so, dass jedes Wort, das in der Liste enthalten ist, bei der Wahl der Deskriptoren nicht berücksichtigt wird. Beispiele dafür sind im allgemeinen Artikel, Präpositionen, Adverbien etc. ...
Das Thema der dokumentarischen Bezugseinheit gibt jedoch weitere Stoppwörter vor, so kann in einem Artikel über Informatik das Wort „Programm“ ausgeschlossen werden.

Freitextverfahren und Trunkierungssymbole

Sind alle Wörter der dokumentarischen Bezugseinheit, die nicht in der Stoppwortliste stehen, zur Suche zugelassen (also Deskriptoren), spricht man von Freitextverfahren. Der Index kann hier nach vollen bzw. trunkierten Wortformen durchsucht werden. Durch Trunkierungssymbole werden Teile des Wortes isoliert, es können dann Wörter gesucht werden, in denen der abgesonderte Wortteil enthalten ist.
Diese Symbole können je nach Anwendung unterschiedlich aussehen (z.B. "?" oder "*") und vor, nach oder in der Mitte eines Wortes gesetzt werden.
Beispielsweise „Atlas“:
man möchte andere Formen dieses Wortes berücksichtigen und schreibt „atla?“, erhält dann u.a. „Atlasse, Atlassen, Atlanten“ aber auch „Atlantik“.
Dieses Beispiel macht deutlich, dass durch dieses Verfahren auch viel Ballast produziert werden kann (Atlantik=Ballast).

Morphologisch-lexikalische Verfahren

Um diesen Ballast zu vermeiden, wird z.B. das morphologisch-lexikalische Verfahren angewendet. Es bietet eine bessere Retrievalgenauigkeit durch Computerlexika, aufgeteilt in Wortformen- und Stammlexika, die mit unterschiedlichen Arbeitsweisen vorgehen.

Wortformenlexika beinhalten alle Grundformen aller enthaltener Wörter mit den dazugehörigen grammatischen Angaben.

Das stammlexikalische Indexierungsverfahren benutzt nur die Grundformen der Wörter.
Dadurch wird eine morphologische Analyse und damit eine Untersuchung von Wörtern, die nicht im Lexikon enthalten sind, möglich, z.B. Wortzusammensetzungen und Ableitungen. Auf diesem Weg lassen sich auch Mehrwortbegriffe mit einbeziehen (wie "natürliche Person")

Semantische Analyse

Eine semantische Analyse ist beispielsweise von Vorteil, wenn ein Sachverhalt von mehreren Personen beschrieben wird. Erläutern verschiedene Nutzer den gleichen Sachverhalt, wählen sie dafür unterschiedliche Formulierungen. Die sogenannten Rollenindikatoren trennen hier mit Hilfe der semantischen Analyse Subjekt, Objekt und Handlung von den Deskriptoren.

Zum besseren Verständnis möchte ich hier ein Beispiel aus dem virtuellen Handbuch der Informationswissenschaft anführen, das ursprünglich in der DIN 31 623 Teil 3 aufgeführt wird.

"Der Einsatz von Pferden zum Schleppen von Baumstämmen.

Die Formulierung dieses Sachverhalts kann fast beliebig variiert werden:
Pferde schleppen Baumstämme
Pferde können Baumstämme schleppen
Baumstämme können von Pferden geschleppt werden
das Schleppen von Baumstämmen durch Pferde
Pferde, die Baumstämme schleppen können

Im Grunde handelt es sich immer um den gleichen Sachverhalt:
Rollenindikator:________Deskriptor:
Subjekt (Handelnder)____Pferd
Handlung______________Schleppen
Objekt_______________Baumstämme"

Thesaurusrelation

Auch Thesauri werden bei der automatischen Indexierung angewendet. Durch sie werden die semantischen Beziehungen verschiedener Begriffe zueinander festgehalten. Das heißt, dass auch Begriffe, die nicht im Text stehen, aber trotzdem das Dokument sehr gut beschreiben, als Deskriptoren zur Verfügung stehen können.


Quellen:

1. Luckhardt, Heinz-Dirk, Automatisches und intellektuelles Indexieren: Virtuelles Handbuch der Informationswissenschaft, Abschnitte 0.-3.4.2 http://is.uni-sb.de/studium/handbuch/exkurs.ind.html last visited 5.11.05
2. DIN 31 623
3. Knorz, G., Automatische Indexierung, in: Hennings, R.-D.;Knorz, G.; Manecke, H.-J.; Reinicke, W.; Schwandt, J.: Wissensrepräsentation und Information Retrieval. Universität Potsdam, Informationswissenschaft, Modellversuch BETID, Lehrmaterialien Nr. 3, Mai 1994, Kapitel 4, S. 138 - 196 http://fiz1.fh-potsdam.de/volltext/fhdarmstadt/03003.html last visited 5.11.05
4. Knorz, G., Informationsaufbereitung II: Indexieren, in: Kuhlen/Seeger/Strauch (Hrsg.): Grundlagen der praktischen Information und Dokumentation (2004), Kap B5, S. 179-188