Deskriptor: Unterschied zwischen den Versionen

Aktuelle Version vom 26. August 2019, 12:39 Uhr

Deskriptoren sind vorwiegend natürlichsprachige Bezeichner, die der Beschreibung von Texten oder Bildern dienen. Eine geordnete Zusammenstellung von Deskriptoren, die in einem Dokumentationsgebiet zum Indexieren, Speichern und Wiederauffinden (Information Retrieval) von Dokumenten dient, nennt man Thesaurus.

Man unterscheidet zulässige und nicht-zulässige Deskriptoren, so genannte Nicht-Deskriptoren. Letztere werden auf zulässige Deskriptoren zurückgeführt, womit eine Suche auch mit ihnen möglich ist. Wenn z.B. ein Thesaurus die Verwendung des Deskriptors "Sonnabend" vorschreibt, wird dieser Deskriptor mit dem Nicht-Deskriptor "Samstag" verknüpft, sodass die Nutzer auch diesen verwenden können. Für jedes Sachgebiet gibt es eine solche Liste, aus der man sich bedienen muss. Ziel einer solchen Liste mit zulässigen und nicht zulässigen Deskriptoren ist es, Konsistenz und Vereindeutigung zu erreichen.

Ein (invertierter) Index stellt die Verbindung zwischen Deskriptoren und Dokumenten her. Er entspricht einer Matrix, in der jede Spalte einem Dokument und jede Zeile einem Deskriptor entspricht. An dem Punkt, wo sich Spalte und Zeile treffen, steht dann die Zahl 1 für ein im Dokument vorkommendes Schlüsselwort und die Null, wenn das Dokument das Schlüsselwort nicht enthält.

Inhaltsverzeichnis

1 Ermittlung von Deskriptoren
2 Koordinierung der Deskriptoren
3 Welche Vorteile bietet welche Deskriptorenermittlungsmethode?
4 Verwandte Begriffe

Ermittlung von Deskriptoren

Man unterscheidet verschiedene Methoden zur Ermittlung von Deskriptoren:

Bei der Extraktionsmethode werden Worte aus dem Text ausgewählt, um ihn zu beschreiben (Stichwörter).
Schlagworte sind Worte, die nicht im Text vorkommen, aber dennoch eng mit dem Inhalt des Textes verwandt sind. Sie werden bei der Additionsmethode als Beschreibung genutzt.
Dokumente ohne Text (z.B. Filme, Bilder oder Modelle) können natürlich nur nach der Additionsmethode indexiert werden.

Da die Nutzer ihre Anfragen auf sehr unterschiedliche Weise stellen, oftmals dasselbe meinen, aber einen anderen Wortschatz verwenden, versucht man durch verschiedene Möglichkeiten die Trefferquote zu verbessern:

Stoppworteliminierung

Terme, die nicht zur Semantik des Dokumentes beitragen, sollen nicht verwaltet werden. Dies bezieht sich auf Artikel, Konjunktionen etc.

Stamm- und Grundformenreduktion

Das Matching soll auf die Wortstämme ausgedehnt werden, d.h. sucht der Nutzer nach dem Begriff 'Methoden', sucht das System automatisch auch nach 'Methode'. Bei konjugierten Verben wird automatisch auch der Infinitiv gesucht usw.

Mehrwortgruppenidentifikation

Semantisch zusammengehörige Wortgruppen sollen erkannt und als Einheit verwaltet werden.

Koordinierung der Deskriptoren

Unter der Koordinierung der Deskriptoren versteht man, wie die Deskriptoren in den Metadaten aufgenommen werden. Also ob sie unterschiedliche Gewichtung bekommen und ob eventuelle Beziehungen einzelner Deskriptoren untereinander mit abgespeichert werden.

Welche Vorteile bietet welche Deskriptorenermittlungsmethode?

Extraktion vs. Addition
	Extraktion	Addition
notwendige Textkenntnis des Indexierers	nicht besonders hoch	gute Kenntnisse erforderlich
Indexierungs-Konsistenz	weitestgehend sichergestellt	führt oft zu Inkonsistenz
Erfolgsquote	im Schnitt gut	Schnitt nicht so gut, aber bei gutem Indexierer oft besser

Also: ein guter Indexierer erzielt mit der Additionsmethode wohl das beste Ergebnis.
Ist er jedoch nicht so geübt, so ist die Extraktionsmethode meist besser; vor allem aber 
schneller und billiger.

@@ Zeile 1: / Zeile 1: @@
-[[category:Informationslinguistik]]
+[[Glossary-Definition::Deskriptor]]en sind vorwiegend natürlichsprachige Bezeichner, die der Beschreibung von Texten oder Bildern dienen. Eine geordnete Zusammenstellung von Deskriptoren, die in einem Dokumentationsgebiet zum [[Indexierung|Indexieren]], Speichern und Wiederauffinden ([[Information Retrieval]]) von Dokumenten dient, nennt man [[Thesaurus]].
-=Definition=
-Deskriptoren dienen der Beschreibung von Texten oder Bildern. Es handelt sich dabei um Begriffe und ihre vorwiegend
-natürlichsprachigen Bezeichnungen. Eine geordnete Zusammenstellung von Deskriptoren, die in einem Dokumentationsgebiet zum
+Man unterscheidet zulässige und nicht-zulässige Deskriptoren, so genannte Nicht-Deskriptoren. Letztere werden auf zulässige Deskriptoren zurückgeführt, womit eine Suche auch mit ihnen möglich ist. Wenn z.B. ein Thesaurus die Verwendung des Deskriptors "Sonnabend" vorschreibt, wird dieser Deskriptor mit dem Nicht-Deskriptor "Samstag" verknüpft, sodass die Nutzer auch diesen verwenden können. Für jedes Sachgebiet gibt es eine solche Liste, aus der man sich bedienen muss. Ziel einer solchen Liste mit zulässigen und nicht zulässigen Deskriptoren ist es, Konsistenz und Vereindeutigung zu erreichen.
-Indexieren, Speichern und Wiederauffinden dient, nennt man [[Thesaurus]].
+Ein '''(invertierter) Index''' stellt die Verbindung zwischen Deskriptoren und Dokumenten her. Er entspricht einer Matrix, in der jede Spalte einem Dokument und jede Zeile einem Deskriptor entspricht. An dem Punkt, wo sich Spalte und Zeile treffen, steht dann die Zahl 1 für ein im Dokument vorkommendes Schlüsselwort und die Null, wenn das Dokument das Schlüsselwort nicht enthält.
-Man unterscheidet zulässige und nicht-zulässige Deskriptoren, so genannte Nicht-Deskriptoren. Letztere werden auf zulässige
+==Ermittlung von Deskriptoren==
-Deskriptoren zurückgeführt, womit eine Suche auch mit ihnen möglich ist. Wenn z.B. ein Thesaurus die Verwendung des
-Deskriptors "Sonnabend" vorschreibt, wird dieser Deskriptor mit dem Nicht-Deskriptor "Samstag" verknüpft, sodass die Nutzer
-auch diesen verwenden können. Für jedes Sachgebiet gibt es eine solche Liste, aus der man sich bedienen muss. Ziel einer
-solchen Liste mit zulässigen und nicht zulässigen Deskriptoren ist es, Konsistenz und Vereindeutigung zu erreichen.
-Ein '''(invertierter) Index''' stellt die Verbindung zwischen Deskriptoren und Dokumenten her. Er entspricht einer Matrix, in
-der jede Spalte einem Dokument und jede Zeile einem Deskriptor entspricht. An dem Punkt, wo sich Spalte und Zeile treffen,
-steht dann die Zahl 1 für ein im Dokument vorkommendes Schlüsselwort, die Null, wenn das Dokument das Schlüsselwort nicht
-enthält.
-=Ermittlung von Deskriptoren=
 Man unterscheidet verschiedene Methoden zur Ermittlung von Deskriptoren:
-*Bei der '''Extraktionsmethode''' werden Worte aus dem Text ausgewählt, um ihn zu beschreiben[[(Stichwörter)]].
+*Bei der '''Extraktionsmethode''' werden Worte aus dem Text ausgewählt, um ihn zu beschreiben ([[Stichwort|Stichwörter]]).
-*[[Schlagworte]] sind Worte, die nicht im Text vorkommen, aber dennoch eng mit dem Inhalt des Textes verwandt sind. Sie
+*[[Schlagwort|Schlagworte]] sind Worte, die nicht im Text vorkommen, aber dennoch eng mit dem Inhalt des Textes verwandt sind. Sie werden bei der '''Additionsmethode''' als Beschreibung genutzt.<br>Dokumente ohne Text (z.B. Filme, Bilder oder Modelle) können natürlich nur nach der Additionsmethode indexiert werden.
-werden bei der '''Additionsmethode''' als Beschreibung genutzt.
+Da die Nutzer ihre Anfragen auf sehr unterschiedliche Weise stellen, oftmals dasselbe meinen, aber einen anderen Wortschatz verwenden, versucht man durch verschiedene Möglichkeiten die Trefferquote zu verbessern:
-Dokumente ohne Text (z.B. Filme/Bilder/Modelle) können natürlich nur nach der Additionsmethode indexiert werden.
-Da die Nutzer ihre Anfragen auf sehr unterschiedliche Weise stellen, oftmals das selbe meinen, aber einen anderen Wortschatz
-verwenden, versucht man durch verschiedene Möglichkeiten die Trefferquote zu verbessern:
 *Stoppworteliminierung
-:Terme, die nicht zur Semantik des Dokumentes beitragen, sollen nicht verwaltet werden. Dies bezieht sich auf Artikel,
+:Terme, die nicht zur Semantik des Dokumentes beitragen, sollen nicht verwaltet werden. Dies bezieht    sich auf Artikel, Konjunktionen etc.
-Konjunktionen etc.
 *Stamm- und Grundformenreduktion
-:Das Matching soll auf die Wortstämme ausgedehnt werden, d.h. sucht der Nutzer nach dem Begriff 'Methoden', sucht das System
+:Das Matching soll auf die Wortstämme ausgedehnt werden, d.h. sucht der Nutzer nach dem Begriff 'Methoden', sucht das System automatisch auch nach 'Methode'. Bei konjugierten Verben wird automatisch auch der Infinitiv gesucht usw.
-automatisch auch nach 'Methode'. Bei konjugierten Verben wird automatisch auch der Infinitiv gesucht usw.
 *Mehrwortgruppenidentifikation
 :Semantisch zusammengehörige Wortgruppen sollen erkannt und als Einheit verwaltet werden.
+==Koordinierung der Deskriptoren==
-=Koordinierung der Deskriptoren=
+Unter der Koordinierung der Deskriptoren versteht man, wie die Deskriptoren in den Metadaten aufgenommen werden. Also ob sie unterschiedliche Gewichtung bekommen und ob eventuelle Beziehungen einzelner Deskriptoren untereinander mit abgespeichert werden.
-Unter der Koordinierung der Deskriptoren versteht man wie die Deskriptoren in den Metadaten aufgenommen werden. Also ob sie
+==Welche Vorteile bietet welche Deskriptorenermittlungsmethode?==
-unterschiedliche Gewichtung bekommen und ob eventuelle Beziehungen einzelner Deskriptoren untereinander mit abgespeichert
-werden.
-=Welche Vorteile bietet welche Deskriptorenermittlungsmethode?=
 {| border="0" cellpadding="5" cellspacing="1" style="float:left; empty-cells:show; margin-left:1em; margin-bottom:0.5em; background:#e3e3e3;"
@@ Zeile 66: / Zeile 33: @@
 |notwendige Textkenntnis <br> des Indexierers || nicht besonders hoch || gute Kenntnisse erforderlich
 |---- bgcolor="#FFFFFF"
-| Indexierungs-konsistenz  || weitestgehend sichergestellt || führt oft zu Inkonsistenz
+| Indexierungs-Konsistenz  || weitestgehend sichergestellt || führt oft zu Inkonsistenz
 |---- bgcolor="#FFFFFF"
 |Erfolgsquote || im Schnitt gut || Schnitt nicht so gut, aber bei <br>gutem Indexierer oft besser
@@ Zeile 74: / Zeile 41: @@
 <br><br><br><br><br><br>
 <br><br><br><br>
-  also: ein guter Indexierer erzielt mit der Additionsmethode wohl das beste Ergebnis.
+  Also: ein guter Indexierer erzielt mit der Additionsmethode wohl das beste Ergebnis.
-  Ist er jedoch nicht so geübt, so ist die Extraktionsmethode meist besser. Vor allem aber
+  Ist er jedoch nicht so geübt, so ist die Extraktionsmethode meist besser; vor allem aber
   schneller und billiger.
+==Verwandte Begriffe==
+* [[broader::Indexierung]]
+* [[broader::Thesaurus]]
+* [[related::Stichwort]]
+* [[related::Schlagwort]]
+* [[related::Additionsmethode]]
+* [[related::Extraktionsmethode]]
+[[category:Informationsarbeit]]
+[[category:Wissensrepräsentation]]
+[[Glossary-Link::Deskriptor]]
+[[Glossary-Term::Deskriptor]]

Deskriptor: Unterschied zwischen den Versionen

Aktuelle Version vom 26. August 2019, 12:39 Uhr

Inhaltsverzeichnis

Ermittlung von Deskriptoren

Koordinierung der Deskriptoren

Welche Vorteile bietet welche Deskriptorenermittlungsmethode?

Verwandte Begriffe

Navigationsmenü

Meine Werkzeuge

Namensräume

Varianten

Ansichten

Mehr

Suche

Navigation

Werkzeuge