Deskriptor

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Zur Navigation springen Zur Suche springen

Definition

Deskriptoren dienen der Beschreibung von Texten oder Bildern. Es handelt sich dabei um Begriffe und ihre vorwiegend

natürlichsprachigen Bezeichnungen. Eine geordnete Zusammenstellung von Deskriptoren, die in einem Dokumentationsgebiet zum

Indexieren, Speichern und Wiederauffinden dient, nennt man Thesaurus.

Man unterscheidet zulässige und nicht-zulässige Deskriptoren, so genannte Nicht-Deskriptoren. Letztere werden auf zulässige

Deskriptoren zurückgeführt, womit eine Suche auch mit ihnen möglich ist. Wenn z.B. ein Thesaurus die Verwendung des

Deskriptors "Sonnabend" vorschreibt, wird dieser Deskriptor mit dem Nicht-Deskriptor "Samstag" verknüpft, sodass die Nutzer

auch diesen verwenden können. Für jedes Sachgebiet gibt es eine solche Liste, aus der man sich bedienen muss. Ziel einer

solchen Liste mit zulässigen und nicht zulässigen Deskriptoren ist es, Konsistenz und Vereindeutigung zu erreichen.

Ein (invertierter) Index stellt die Verbindung zwischen Deskriptoren und Dokumenten her. Er entspricht einer Matrix, in

der jede Spalte einem Dokument und jede Zeile einem Deskriptor entspricht. An dem Punkt, wo sich Spalte und Zeile treffen,

steht dann die Zahl 1 für ein im Dokument vorkommendes Schlüsselwort, die Null, wenn das Dokument das Schlüsselwort nicht

enthält.

Ermittlung von Deskriptoren

Man unterscheidet verschiedene Methoden zur Ermittlung von Deskriptoren:

  • Bei der Extraktionsmethode werden Worte aus dem Text ausgewählt, um ihn zu beschreiben(Stichwörter).
  • Schlagworte sind Worte, die nicht im Text vorkommen, aber dennoch eng mit dem Inhalt des Textes verwandt sind. Sie

werden bei der Additionsmethode als Beschreibung genutzt.

Dokumente ohne Text (z.B. Filme/Bilder/Modelle) können natürlich nur nach der Additionsmethode indexiert werden.

Da die Nutzer ihre Anfragen auf sehr unterschiedliche Weise stellen, oftmals das selbe meinen, aber einen anderen Wortschatz

verwenden, versucht man durch verschiedene Möglichkeiten die Trefferquote zu verbessern:

  • Stoppworteliminierung
Terme, die nicht zur Semantik des Dokumentes beitragen, sollen nicht verwaltet werden. Dies bezieht sich auf Artikel,

Konjunktionen etc.

  • Stamm- und Grundformenreduktion
Das Matching soll auf die Wortstämme ausgedehnt werden, d.h. sucht der Nutzer nach dem Begriff 'Methoden', sucht das System

automatisch auch nach 'Methode'. Bei konjugierten Verben wird automatisch auch der Infinitiv gesucht usw.

  • Mehrwortgruppenidentifikation
Semantisch zusammengehörige Wortgruppen sollen erkannt und als Einheit verwaltet werden.


Koordinierung der Deskriptoren

Unter der Koordinierung der Deskriptoren versteht man wie die Deskriptoren in den Metadaten aufgenommen werden. Also ob sie

unterschiedliche Gewichtung bekommen und ob eventuelle Beziehungen einzelner Deskriptoren untereinander mit abgespeichert

werden.

Welche Vorteile bietet welche Deskriptorenermittlungsmethode?

Extraktion vs. Addition
  Extraktion Addition
notwendige Textkenntnis
des Indexierers
nicht besonders hoch gute Kenntnisse erforderlich
Indexierungs-konsistenz weitestgehend sichergestellt führt oft zu Inkonsistent
Erfolgsquote im Schnitt gut Schnitt nicht so gut, aber bei
gutem Indexierer oft besser











also: ein guter Indexierer erzielt mit der Additionsmethode wohl das beste Ergebnis.
Ist er jedoch nicht so geübt, so ist die Extraktionsmethode meist besser. Vor allem aber 
schneller und billiger.