Thesaurus

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Zur Navigation springen Zur Suche springen

Dieser Artikel ist noch in Arbeit


Die Grundproblematik

Die Grundproblematik und gleichzeitig der Hintergrund für die Entwicklung von Thesauri basiert auf der Uneindeutigkeit der natürlichen Sprache. Das heißt, Begriffe können aufgrund ihrer Mehrdeutigkeit (z.B. Polysemie oder Synonymie) nicht immer eindeutig ihren sprachlichen Repräsentanten zugeordnet werden. Dieses Problem kann jedoch mit Hilfe von Dokumentationssprachen wie z.B. Thesauri oder Klassifikationen weitestgehend gelöst werden.

Nach Wersig 1985 werden drei Problemebenen unterschieden:

- Die Ebene der Umwelt, in der Objekte wahrgenommen werden können

- Die geistige Ebene, in der Begriffe gebildet werden um die Objekte der Umwelt zu spezifizieren

- Die sprachliche Ebene, in der Bezeichnungen zur Darstellung von Objekten und Begriffen im Kommunikationsprozess benutzt werden.

Problemebenen.JPG

(Quelle: Vgl. [3] Wersig 1985, S 14)


Im folgenden Schaubild ist diese Problematik am Beispiel des Dokumentationsprozesses dargestellt:

Dokumentationsprozess.JPG (Quelle: Vgl. [3] Wersig 1985, S 15)

- Autoren setzen Begriffe in Bezeichnungen um.

- Der Dokumentar muss diese verstehen, d.h. ihnen wieder Begriffe zuordnen.

- Im Zuge der Indexierung werden diese dann wieder in Bezeichnungen umgesetzt.

- Benutzer formulieren ihre Frage, d.h. Begriffe werden wiederum in Bezeichnungen umgesetzt.

- Der Dokumentar muss die Frage verstehen, ihr Begriffe zuordnen.

- Diese werden wieder in Bezeichnungen für eine Suchanfrage umgesetzt.


Demnach ist die Aufgabe einer Dokumentationssprache, Dokumente inhaltlich so zu Beschreiben, dass die Bezeichnungen 2 und 4 bei einer Suchanfrage übereinstimmen. (Quelle: [3] Wersig 1985, S.14-18)

Dokumentationssprache Thesaurus

Wie in der Grundproblematik geschildert, bedarf es, um z.B. im Zuge des Information Retrieval ein Dokument in einer Datenbank (wieder-) zu finden, einer Dokumentationssprache, die die Nachteile der natürlichen Sprache ausgleicht. Eine Dokumentationssprache ist definiert als „die „Sprache“, in der Dokumente inhaltlich beschrieben werden. Hierbei kann es sich um eine (strukturierte oder unstrukturierte) Menge natürlichsprachiger Ausdrücke handeln (ein Beispiel hierfür sind die Thesauri, strukturierte Menge von Deskriptoren), oder um eine künstliche Sprache (z.B. Klassifikationen, die Kombinationen von Buchstaben, Ziffern und anderen Zeichen wie Punkt und Komma verwenden“. (Quelle: [1] Luckhardt2.1 Dokumentationssprache)

Nach DIN 1463 ist darauf aufbauend ein Thesaurus im Bereich der Information und Dokumentation eine geordnete Zusammenstellung von Begriffen und ihren (vorwiegend natürlichsprachigen) Bezeichnungen, die in einem Dokumentationsgebiet zum Indexieren, Speichern und Wiederauffinden dient. (Quelle: vgl. DIN 1463 z.B. In: [3] Wersig 1985)

Weiterhin ist ein Thesaurus durch folgende Merkmale gekennzeichnet:

- Eindeutige Beziehung zwischen Begriffen und Bezeichnungen

- Vollständige Erfassung von Synonymen

- Besondere Kennzeichnung von Homonymen und Polysemen

- Eindeutige Bezeichnung eines jeden Begriffs

- Beziehungen zwischen Begriffen

- Präskriptivität: Thesaurus legt fest, welche begrifflichen Einheiten zur Verfügung gestellt werden und wie sie repräsentiert werden (Quelle: Vgl. [5] Burkart, S. 141)


Thesaurusaufbau

Zur Erstellung eines Thesaurus ist es notwendig den Bezugsrahmen einzugrenzen: Denn ein Thesaurus kann den Anforderungen bezüglich Eindeutigkeit, Verbindlichkeit und Übersichtlichkeit nur dann gerecht werden, wenn der entsprechende Sachverhalt klar umrissen ist. Es ist also sinnvoll, sich auf einen bestimmten, überschaubaren Gegenstandsbereich zu beziehen, und Spezifitätsgrad (Allgemein vs. Speziell), Sprachstil (Wissenschaftlich vs. Allgemein) und Umfang zu konkretisieren.

Wenn die Rahmenbedingungen festgelegt sind, wird anhand geeigneter Quellen (z.B. Experten, Fachliteratur, Fachwörterbücher, bereits existierende Thesauri, etc.) eine Wortgutsammlung erstellt. (Quelle: [5] Burkart, S 141f)

Terminologische Kontrolle

Da in der erstellten Wortgutsammlung noch die Unklarheiten und Mehrdeutigkeiten der natürlichen Sprache enthalten sind, ist die terminologische Kontrolle unerlässlich für die Eindeutigkeit der Beziehung zwischen Bezeichnungen und Begriffen. Die terminologische Kontrolle erfolgt durch die Synonymkontrolle, die Polysemkontrolle und die Zerlegungskontrolle.


Synonymkontrolle

Bei der Synonymkontrolle sollen alle als Synonym erkannten Begriffe einer Äquivalenzklasse zugeordnet werden; d.h. es werden alle Bezeichnungen zusammengefasst, die den gleichen Begriff repräsentieren.

Vollständige Synonymie:

Photographie – Fotografie

Frisör – Friseur

Unterschiedliche Konnotationen:

Pferd – Gaul

Samstag – Sonnabend

Pars pro toto Übertragung:

Rundfunk – Hörfunk

Quasi – Synonyme

Härte – Weichheit

Wohnen - Wohnung

Polysemkontrolle

Der entgegengesetzte Vorgang zur Synonymkontrolle ist die Polysemkontrolle. Hier werden unterschiedliche Bezeichnungen, die nur von einem Begriff repräsentiert werden, in einer Äquivalenzklasse zusammengefasst.

Schloss – Schloss

Hahn - Hahn

Zerlegungskontrolle

Die Zerlegungskontrolle betrifft Komposita; hier wird zwischen der morphologischen Zerlegung und der semantischen Zerlegung unterschieden.

Bei der morphologischen Zerlegung wird ein zusammengesetztes Wort in seine Grundwörter aufgeteilt:

arbeit , -er, -en, -barkeit, etc

Bei der semantischen Zerlegung wird ein Begriff in seine Begriffsteile zerlegt. Diese Begriffsteile werden durch im Thesaurus vorhandene Bezeichnungen ausgedrückt

Kaffetasse Kaffe + Tasse

Äquivalenzklasse - Deskriptor

Die aus der terminologischen Kontrolle entstandenen Begriffseinheiten werden als Äquivalenzklassen bezeichnet. Die Darstellung der Äquivalenzklassen kann in einem Thesaurus unterschiedlich sein:

Bei einem Thesaurus ohne Vorzugsbenennung sind alle Elemente einer Äquivalenzklasse sind uneingeschränkt für Indexierung und Retrieval verwendbar.

Bei einem Thesaurus mit Vorzugsbenennung wird ein Element der Äquivalenzklasse als Vorzugsbenennung ausgewählt und als Deskriptor bezeichnet. Deskriptoren sind Schlagworte, die im Thesaurus enthalten und zur Indexierung zugelassen sind.

Nicht-Deskriptoren sind Schlagworte, die im Thesaurus enthalten, aber nicht zur Indexierung zugelassen sind.

(Quellen: Vgl. [3] Wersig 1985, S. 43-67, [5] Burkart, S. 142-145)


Relationen

Die Relationen begründen die Struktur des Thesaurus. Sie stellen die Beziehungen zwischen den einzelnen Äquivalenzklassen dar. Dadurch entsteht ein semantisches Netz über den gesamten Thesaurus, das durch Querbeziehungen zu anderen ähnlichen oder verwandten Begriffen verweist und zu besseren Ergebnissen bei Indexierung und Information Retrieval führt. Hierbei wird zwischen der Äquivalenzrelation, der Hierarchierelation, der Assoziationsrelation und der Begriffskombinationen unterschieden.


Äquivalenzrelation

Bei der Äquivalenzrelation werden Bedeutungen als gleichwertig aufgefasst und zu Äquivalenzklassen zusammengeführt.

Äquivalenzrelation.JPG

BS = Benutze Synonym

BSU = Benutze spezifischen Unterbegriff

Hierarchische Relation

Die hierarchische Relation drückt ein Über- und Unterordnungsverhältnis der Begriffe aus.

Generische Relation (Abstraktionsfunktion)

Generische Relation.JPG

Partitive Relation (Bestandsrelation)

Partitive Relation.JPG

UB = Unterbegriff

OB = Oberbegriff

TP = Teilbegriff

SP = Verbandsbegriff


Assoziationsrelation

Bei der Assoziationsrelation werden alle Relationen zwischen Begriffen erfasst, die weder eindeutig hierarchischer Natur sind, noch als äquivalent betrachtet werden können

Assoziationsfunktion.JPG

VB = Verwandter Begriff


Begriffskombination

Bei der Begriffskombination wird eine Schnittmenge zwischen den Deskriptoren zweier Äquivalenzklassen erzeugt.

Begriffskombination.JPG

BK = Benutze Kombination

KB = Kombinationsbegriff

(Quellen:Vgl. [2]Luckardt,Grundsätzliches zu Thesauri und ihrer möglichen Verwendung in der MÜ, 2. Relationierung von Begriffen, [3]Wersig 1985, S. 111-141 und [5]Burkart, S. 147ff)

Thesaurusteile

Thesaurus-Manual: Einleitung zum Thesaurus Thesaurus-Hauptteil: Darstellung der Deskriptoren und ihren Relationen zu anderen Deskriptoren Thesaurus-Register: Register der Dokumentationssprache das den Zugang zu den im Thesaurus Hauptteil enthaltenen Begriffen und Bezeichnungen ermöglicht (Quelle: Vgl. [3] Wersig 1985, S.156-210)


Thesauruspflege

Damit ein Thesaurus seinen Anforderungen gerecht bleibt, ist eine ständige Beobachtung der Entwicklung der Forschungsschwerpunkte dieses Fachs notwendig; dazu gehören z.B. die:

- Beobachtung der fachsprachlichen Entwicklung

- Beobachtung der Indexierungsverhaltens/ der Indexierungsergebnisse

- Beobachtung des Benutzerverhaltens und der Rechercheergebnisse

(Quelle: Vgl. [5] Burkart, S.151)


Literatur

[1]Luckardt, Heinz Dirk: Automatische und intellektuelle Indexierung.In: Virtuelles Handbuch der Informationswissenschaft. (letzter Zugriff 12.03.06)

[2]Luckardt, Heinz Dirk: Klassifikationen und Thesauri und die Verarbeitung natürlicher Sprache. In: Virtuelles Handbuch der Informationswissenschaft. (letzter Zugriff 12.03.06)

[3]Wersig, G.: (1985). Thesaurus-Leitfaden. Eine Einführung in das Thesaurus-Prinzip in Theorie und Praxis. München et al.: K.G. Saur

[4]Panyr, Jiri:(1988)Thesaurus und wissensbasierte Systeme – Thesauri und Wissensbasen. In: Nachr.f.Dokum. 39, S. 209-215

[5] Burkart, Margarete: Thesaurus. In: Kuhlen, R.; Seeger, Th.; Strauch, D. (Hrsg.): Grundlagen der praktischen Information und Dokumentation. München u.a. : K.G. Saur, 2004, S. 141-154