Thesaurus
Inhaltsverzeichnis
Die Grundproblematik
Die Grundproblematik und gleichzeitig der Hintergrund für die Entwicklung von Thesauri basiert auf der Uneindeutigkeit der natürlichen Sprache. Das heißt, Begriffe können aufgrund ihrer Mehrdeutigkeit (Polysemie oder Homonymie) nicht immer eindeutig ihren sprachlichen Repräsentanten zugeordnet werden. Dieses Problem kann jedoch mit Hilfe von Dokumentationssprachen wie z.B. Thesauri oder Klassifikationen weitestgehend gelöst werden.
Nach Wersig 1985 werden drei Problemebenen unterschieden:
- Die Ebene der Umwelt, in der Objekte wahrgenommen werden können.
- Die geistige Ebene, in der Begriffe gebildet werden, um die Objekte der Umwelt zu spezifizieren.
- Die sprachliche Ebene, in der Bezeichnungen zur Darstellung von Objekten und Begriffen im Kommunikationsprozess benutzt werden.
(Quelle: Vgl. Wersig 1985, S 14)
Im folgenden Schaubild ist diese Problematik am Beispiel des Dokumentationsprozesses dargestellt:
(Quelle: Vgl. Wersig 1985, S 15)
- Autoren setzen Begriffe in Bezeichnungen um.
- Der Dokumentar muss diese verstehen, d.h. ihnen wieder Begriffe zuordnen.
- Im Zuge der Indexierung werden diese dann wieder in Bezeichnungen umgesetzt.
- Benutzer formulieren ihre Frage, d.h. Begriffe werden wiederum in Bezeichnungen umgesetzt.
- Der Dokumentar muss die Frage verstehen, ihr Begriffe zuordnen.
- Diese werden wieder in Bezeichnungen für eine Suchanfrage umgesetzt.
Demnach ist die Aufgabe einer Dokumentationssprache, Dokumente inhaltlich so zu Beschreiben, dass die Bezeichnungen zwei und vier bei einer Suchanfrage übereinstimmen. (Quelle: Wersig 1985, S.14-18)
Dokumentationssprache Thesaurus
Wie in der Grundproblematik geschildert, bedarf es, um z.B. im Zuge des Information Retrieval ein Dokument in einer Datenbank (wieder-) zu finden, einer Dokumentationssprache, die die Nachteile der natürlichen Sprache ausgleicht. Eine Dokumentationssprache ist definiert als "die „Sprache“, in der Dokumente inhaltlich beschrieben werden. Hierbei kann es sich um eine (strukturierte oder unstrukturierte) Menge natürlichsprachiger Ausdrücke handeln (ein Beispiel hierfür sind die Thesauri, strukturierte Menge von Deskriptoren), oder um eine künstliche Sprache (z.B. Klassifikationen, die Kombinationen von Buchstaben, Ziffern und anderen Zeichen wie Punkt und Komma verwenden)“. (Quelle: Luckhardt2.1 Dokumentationssprache)
Nach DIN 1463 ist ein Thesaurus im Bereich der Information und Dokumentation eine geordnete Zusammenstellung von Begriffen und ihren (vorwiegend natürlichsprachigen) Bezeichnungen, die in einem Dokumentationsgebiet zum Indexieren, Speichern und Wiederauffinden dient. (Quelle: vgl. DIN 1463 z.B. In: Wersig 1985)
Weiterhin ist ein Thesaurus durch folgende Merkmale gekennzeichnet:
- Eindeutige Beziehung zwischen Begriffen und Bezeichnungen
- Vollständige Erfassung von Synonymen
- Besondere Kennzeichnung von Homonymen und Polysemen
- Eindeutige Bezeichnung eines jeden Begriffs
- Beziehungen zwischen Begriffen
- Präskriptivität: Thesaurus legt fest, welche begrifflichen Einheiten zur Verfügung gestellt und wie sie repräsentiert werden
(Quelle: Vgl. Burkart, S. 141)
Thesaurusaufbau
Zur Erstellung eines Thesaurus ist es notwendig den Bezugsrahmen einzugrenzen: Denn ein Thesaurus kann den Anforderungen bezüglich Eindeutigkeit, Verbindlichkeit und Übersichtlichkeit nur dann gerecht werden, wenn der entsprechende Sachverhalt klar umrissen ist. Es ist also sinnvoll, sich auf einen bestimmten, überschaubaren Gegenstandsbereich zu beziehen, und Spezifitätsgrad (Allgemein vs. Speziell), Sprachstil (Wissenschaftlich vs. Allgemein) und Umfang zu konkretisieren.
Wenn die Rahmenbedingungen festgelegt sind, wird anhand geeigneter Quellen (z.B. Experten, Fachliteratur, Fachwörterbücher, bereits existierende Thesauri, etc.) eine Wortgutsammlung erstellt. (Quelle: Burkart, S 141f)
Terminologische Kontrolle
Da in der erstellten Wortgutsammlung noch die Unklarheiten und Mehrdeutigkeiten der natürlichen Sprache enthalten sind, ist die terminologische Kontrolle unerlässlich für die Eindeutigkeit der Beziehung zwischen Bezeichnungen und Begriffen. Die terminologische Kontrolle erfolgt durch die Synonymkontrolle, die Polysemkontrolle und die Zerlegungskontrolle.
Synonymkontrolle
Bei der Synonymkontrolle sollen alle als Synonym erkannten Begriffe einer Äquivalenzklasse zugeordnet werden; d.h. es werden alle Bezeichnungen zusammengefasst, die den gleichen Begriff repräsentieren.
Vollständige Synonymie:
Photographie – Fotografie
Frisör – Friseur
Unterschiedliche Konnotationen:
Pferd – Gaul
Samstag – Sonnabend
Pars pro toto Übertragung:
Rundfunk – Hörfunk
Quasi – Synonyme:
Härte – Weichheit
Wohnen - Wohnung
Polysemkontrolle
Der entgegengesetzte Vorgang zur Synonymkontrolle ist die Polysemkontrolle. Hier werden Bezeichnungen, die unterschiedliche Bedeutungen aufweisen, differenziert und verschiedenen Fachgebieten zugeordnet:
Schloss (Gebäude) - Schloss (Schließmechanismus)
Hahn (Haustier) - Hahn (Wasserhahn) - Hahn (Wetterhahn)
Zerlegungskontrolle
Die Zerlegungskontrolle betrifft Komposita; hier wird zwischen der morphologischen Zerlegung und der semantischen Zerlegung unterschieden.
Bei der morphologischen Zerlegung wird ein zusammengesetztes Wort in seine Grundwörter aufgeteilt:
arbeit , -er, -en, -barkeit, etc
Bei der semantischen Zerlegung wird ein Begriff in seine Begriffsteile zerlegt. Diese Begriffsteile werden durch im Thesaurus vorhandene Bezeichnungen ausgedrückt
Kaffetasse Kaffe + Tasse
Äquivalenzklasse - Deskriptor
Die aus der terminologischen Kontrolle entstandenen Begriffseinheiten werden als Äquivalenzklassen bezeichnet. Die Darstellung der Äquivalenzklassen kann in einem Thesaurus unterschiedlich sein:
Bei einem Thesaurus ohne Vorzugsbenennung sind alle Elemente einer Äquivalenzklasse uneingeschränkt für Indexierung und Retrieval verwendbar.
Bei einem Thesaurus mit Vorzugsbenennung wird ein Element der Äquivalenzklasse als Vorzugsbenennung ausgewählt und als Deskriptor bezeichnet. Deskriptoren sind Schlagworte, die im Thesaurus enthalten und zur Indexierung zugelassen sind.
Nicht-Deskriptoren sind Schlagworte, die im Thesaurus enthalten, aber nicht zur Indexierung zugelassen sind.
(Quellen: Vgl. Wersig 1985, S. 43-67, Burkart, S. 142-145)
Relationen
Die Relationen begründen die Struktur des Thesaurus. Sie stellen die Beziehungen zwischen den einzelnen Äquivalenzklassen dar. Dadurch entsteht ein semantisches Netz über den gesamten Thesaurus, das durch Querbeziehungen zu anderen ähnlichen oder verwandten Begriffen verweist und zu besseren Ergebnissen bei Indexierung und Information Retrieval führt. Hierbei wird zwischen der Äquivalenzrelation, der Hierarchierelation, der Assoziationsrelation und der Begriffskombinationen unterschieden.
Äquivalenzrelation
Bei der Äquivalenzrelation werden Bedeutungen als gleichwertig aufgefasst und Bezeichnungen zu Äquivalenzklassen zusammengeführt.
BS = Benutze Synonym
BSU = Benutze spezifischen Unterbegriff
Hierarchische Relation
Die hierarchische Relation drückt ein Über- und Unterordnungsverhältnis der Begriffe aus.
Generische Relation (Abstraktionsfunktion)
Partitive Relation (Bestandsrelation)
UB = Unterbegriff
OB = Oberbegriff
TP = Teilbegriff
SP = Verbandsbegriff
Assoziationsrelation
Bei der Assoziationsrelation werden alle Relationen zwischen Begriffen erfasst, die weder eindeutig hierarchischer Natur sind, noch als äquivalent betrachtet werden können
VB = Verwandter Begriff
Begriffskombination
Bei der Begriffskombination wird eine Schnittmenge zwischen den Deskriptoren zweier Äquivalenzklassen erzeugt.
BK = Benutze Kombination
KB = Kombinationsbegriff
(Quellen:Vgl. Luckardt,Grundsätzliches zu Thesauri und ihrer möglichen Verwendung in der MÜ, 2. Relationierung von Begriffen, Wersig 1985, S. 111-141 und Burkart, S. 147ff)
Thesaurusteile
- Thesaurus-Manual: Einleitung zum Thesaurus
- Thesaurus-Hauptteil: Darstellung der Deskriptoren und ihren Relationen zu anderen Deskriptoren
- Thesaurus-Register: Register der Dokumentationssprache, das den Zugang zu den, im Thesaurus Hauptteil enthaltenen, Begriffen und Bezeichnungen ermöglicht
(Quelle: Vgl. Wersig 1985, S.156-210)
Thesauruspflege
Damit ein Thesaurus seinen Anforderungen gerecht bleiben kann, ist eine ständige Beobachtung der Entwicklung der Forschungsschwerpunkte des jeweiligen Fachs notwendig; dazu gehören z.B. die:
- Beobachtung der fachsprachlichen Entwicklung
- Beobachtung des Indexierungsverhaltens/der Indexierungsergebnisse
- Beobachtung des Benutzerverhaltens und der Rechercheergebnisse
(Quelle: Vgl. Burkart, S.151)
Literatur
- Burkart, Margarete (2004): Thesaurus. In: Kuhlen, R.; Seeger, Th.; Strauch, D. (Hrsg.): Grundlagen der praktischen Information und Dokumentation. München et al.: K.G. Saur, S. 141-154
- Luckhardt, Heinz Dirk: Automatische und intellektuelle Indexierung.In: Virtuelles Handbuch der Informationswissenschaft. (letzter Zugriff 12.03.06)
- Luckhardt, Heinz Dirk: Klassifikationen und Thesauri und die Verarbeitung natürlicher Sprache. In: Virtuelles Handbuch der Informationswissenschaft. (letzter Zugriff 12.03.06)
- Panyr, Jiri:(1988). Thesaurus und wissensbasierte Systeme – Thesauri und Wissensbasen. In: Nachr. f. Dokum. 39, S. 209-215
- Wersig, G.: (1985). Thesaurus-Leitfaden. Eine Einführung in das Thesaurus-Prinzip in Theorie und Praxis. München et al.: K.G. Saur