Deskriptor: Unterschied zwischen den Versionen
Zeile 5: | Zeile 5: | ||
Ziel einer solchen Liste mit zulässigen und nicht zulässigen Deskriptoren ist es, Konsistenz und Vereindeutigung zu erreichen. | Ziel einer solchen Liste mit zulässigen und nicht zulässigen Deskriptoren ist es, Konsistenz und Vereindeutigung zu erreichen. | ||
− | Ein '''Index''' stellt Verbindung zwischen Deskriptoren und Dokumenten her. | + | Ein '''(invertierter) Index''' stellt die Verbindung zwischen Deskriptoren und Dokumenten her. Er entspricht einer Matrix, in der jede Spalte einem Dokument und jede Zeile einem Deskriptor entspricht. An dem Punkt, wo sich Spalte und Zeile treffen, steht dann die Zahl 1 für ein im Dokument vorkommendes Schlüsselwort, die Null, wenn das Dokument das Schlüsselwort nicht enthält. |
=Ermittlung von Deskriptoren= | =Ermittlung von Deskriptoren= | ||
Man unterscheidet verschiedene Methoden zur Ermittlung von Deskriptoren: | Man unterscheidet verschiedene Methoden zur Ermittlung von Deskriptoren: | ||
− | *Bei der '''Extraktionsmethode''' werden Worte aus dem Text ausgewählt um ihn zu beschreiben, diese tauchen z.B. bei einer Suchmaske als Stichworte wieder auf. | + | *Bei der '''Extraktionsmethode''' werden Worte aus dem Text ausgewählt, um ihn zu beschreiben, diese tauchen z.B. bei einer Suchmaske als Stichworte wieder auf. |
− | *Schlagworte sind Worte die nicht im Text vorkommen, aber dennoch eng mit dem Inhalt des Textes verwandt sind. Sie werden bei der '''Additionsmethode''' als Beschreibung genutzt. | + | *Schlagworte sind Worte, die nicht im Text vorkommen, aber dennoch eng mit dem Inhalt des Textes verwandt sind. Sie werden bei der '''Additionsmethode''' als Beschreibung genutzt. |
− | Da die Nutzer ihre Anfragen auf sehr unterschiedliche Weise stellen, oftmals das selbe meinen aber einen anderen Wortschatz verwenden, versucht man durch verschiedene Möglichkeiten die Trefferquote zu verbessern: | + | Da die Nutzer ihre Anfragen auf sehr unterschiedliche Weise stellen, oftmals das selbe meinen, aber einen anderen Wortschatz verwenden, versucht man durch verschiedene Möglichkeiten die Trefferquote zu verbessern: |
*Stoppworteliminierung | *Stoppworteliminierung | ||
:Terme, die nicht zur Semantik des Dokumentes beitragen, sollen nicht verwaltet werden. Dies bezieht sich auf Artikel, Konjunktionen etc. | :Terme, die nicht zur Semantik des Dokumentes beitragen, sollen nicht verwaltet werden. Dies bezieht sich auf Artikel, Konjunktionen etc. | ||
*Stamm- und Grundformenreduktion | *Stamm- und Grundformenreduktion | ||
− | :Das Matching soll auf die Wortstämme ausgedehnt werden, d.h. sucht der Nutzer nach dem Begriff | + | :Das Matching soll auf die Wortstämme ausgedehnt werden, d.h. sucht der Nutzer nach dem Begriff 'Methoden', sucht das System automatisch auch nach 'Methode'. Bei konjugierten Verben wird automatisch auch der Infinitiv gesucht usw. |
*Mehrwortgruppenidentifikation | *Mehrwortgruppenidentifikation | ||
:Semantisch zusammengehörige Wortgruppen sollen erkannt und als Einheit verwaltet werden. | :Semantisch zusammengehörige Wortgruppen sollen erkannt und als Einheit verwaltet werden. |
Version vom 30. September 2005, 13:49 Uhr
Definition
Deskritptoren dienen der Beschreibung von Texten oder Bildern. Es handelt sich dabei um Begriffe und ihre vorwiegend natürlichsprachigen Bezeichnungen. Eine geordnete Zusammenstellung von Deskriptoren, die in einem Dokumentationsgebiet zum Indexieren, Speichern und Wiederauffinden dient, nennt man Thesaurus.
Man unterscheidet zulässige und nicht-zulässige Deskriptoren, so genannte Nicht-Deskriptoren. Diese kommen als Merkmal für einen bestimmten Text nicht in Frage, weil sie zum Beispiel zu allgemein sind. Das Wort "Computer" beispielsweise ist Bestandteil zu vieler Texte im informationswissenschaftlichen Bereich als dass es als Beschreibung und Unterscheidungsmerkmal von Texten in Frage kommt. Für jedes Sachgebiet gibt es eine solche Liste, aus der man sich bedienen muss. Ziel einer solchen Liste mit zulässigen und nicht zulässigen Deskriptoren ist es, Konsistenz und Vereindeutigung zu erreichen.
Ein (invertierter) Index stellt die Verbindung zwischen Deskriptoren und Dokumenten her. Er entspricht einer Matrix, in der jede Spalte einem Dokument und jede Zeile einem Deskriptor entspricht. An dem Punkt, wo sich Spalte und Zeile treffen, steht dann die Zahl 1 für ein im Dokument vorkommendes Schlüsselwort, die Null, wenn das Dokument das Schlüsselwort nicht enthält.
Ermittlung von Deskriptoren
Man unterscheidet verschiedene Methoden zur Ermittlung von Deskriptoren:
- Bei der Extraktionsmethode werden Worte aus dem Text ausgewählt, um ihn zu beschreiben, diese tauchen z.B. bei einer Suchmaske als Stichworte wieder auf.
- Schlagworte sind Worte, die nicht im Text vorkommen, aber dennoch eng mit dem Inhalt des Textes verwandt sind. Sie werden bei der Additionsmethode als Beschreibung genutzt.
Da die Nutzer ihre Anfragen auf sehr unterschiedliche Weise stellen, oftmals das selbe meinen, aber einen anderen Wortschatz verwenden, versucht man durch verschiedene Möglichkeiten die Trefferquote zu verbessern:
- Stoppworteliminierung
- Terme, die nicht zur Semantik des Dokumentes beitragen, sollen nicht verwaltet werden. Dies bezieht sich auf Artikel, Konjunktionen etc.
- Stamm- und Grundformenreduktion
- Das Matching soll auf die Wortstämme ausgedehnt werden, d.h. sucht der Nutzer nach dem Begriff 'Methoden', sucht das System automatisch auch nach 'Methode'. Bei konjugierten Verben wird automatisch auch der Infinitiv gesucht usw.
- Mehrwortgruppenidentifikation
- Semantisch zusammengehörige Wortgruppen sollen erkannt und als Einheit verwaltet werden.