Thesaurus: Unterschied zwischen den Versionen

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Zur Navigation springen Zur Suche springen
Zeile 1: Zeile 1:
== Die Grundproblematik ==
+
==Definition==
Die Grundproblematik und gleichzeitig der Hintergrund für die Entwicklung von Thesauri basiert auf der Uneindeutigkeit der natürlichen Sprache. Das heißt, Begriffe können aufgrund ihrer [[Mehrdeutigkeit]] ([[Polysemie]] oder [[Homonymie]]) nicht immer eindeutig ihren sprachlichen Repräsentanten zugeordnet werden. Dieses Problem kann jedoch mit Hilfe von Dokumentationssprachen wie z.B. Thesauri oder [[Klassifikationen]] weitestgehend gelöst werden.
+
[[definition::„Ein Thesaurus im Bereich der Information und Dokumentation ist eine geordnete Zusammenstallung von Begriffen und ihren (vorwiegend natürlichsprachigen) Bezeichnungen, die in einem Dokumentationsgebiet zum Indexieren, Speichern und Wiederauffinden dient.]]
 +
Kks 141
  
Nach Wersig 1985 werden drei Problemebenen unterschieden:
+
„Im IuD-Bereich versteht man unter einem Thesaurus eine natürlichsprachig-basierte Dokumentationssprache zur inhaltlichen Feinerschliessung. Sie enthält eine geordnete Zusammenstellung von Begriffen und Benennungen, die zum Indexieren, Speichern und Wiederauffinden dokumentarischer Bezugseinheiten dient.“
  
*Die Ebene der Umwelt, in der Objekte wahrgenommen werden können.
+
Betram 209
  
*Die geistige Ebene, in der Begriffe gebildet werden, um die Objekte der Umwelt zu spezifizieren.
+
==Merkmale==
 +
Ein Thesaurus wird nach Burkhart durch folgende Merkmale gekennzeichnet:
 +
*Begriffe und Beziehungen werden eindeutig aufeinander bezogen („terminologische Kontrolle“), indem
 +
**Synonyme möglichst vollständig erfasst werden
 +
**Homonyme und Polyseme besonders gekennzeichnet werden
 +
**Für jeden Begriff eine Bezeichnung (Vorzugsbenennung, Begriffsnummer oder Notation) festgelegt wird, die den Begriff eindeutig vertritt
 +
*Beziehungen zwischen Begriffen (repräsentiert durch ihre Bezeichnungen) werden dargestellt
 +
*Der Thesaurus ist präskriptiv, indem er für seinen Geltungsbereich festlegt, welche begrifflichen Einheiten zur Verfügung gestellt werden und durch welche Bezeichnungen diese repräsentiert werden.
 +
KKS 141
  
*Die sprachliche Ebene, in der Bezeichnungen zur Darstellung von Objekten und Begriffen im Kommunikationsprozess benutzt werden.
+
==Wortherkunft und Entstehungsgeschichte==
 +
Ursprünglich bezeichnete der aus dem griechischen stammende Begriff „Thesaurus“ einen Ort zum Einsammeln und Aufbewahren von Schätzen und Weihgaben. Im Bereich der Sprachwissenschaften versteht man zur heutigen Zeit ein Synonymwörterbuch.
 +
Bertram 209
  
[[bild:Problemebenen.JPG]]
+
De Entwicklung von Thesauri wurde in der Mitte des 20. Jahrhunderts von der Motivation getrieben, sich von der starren und unflexiblen Präkombination abzuwenden und stattdessen eine benutzerfreundliche, natürliche Sprache zu verwenden. Schnell stellte sich das Bedürfnis nach einer Feinerschliessung von Dokumentbeständen in den Vordergrund, die eine Klassifikation nicht leistet. Durch die Entwicklung moderner Informationstechnologien wurde die physische Bindung der Erschliessung zu lösen und anstelle dessen digitale Stellvertreter zu verwenden. Dies erlaubte den polydimensionalen Zugriff auf Inhalte von Dokumenten, was die Vergabe von mehreren Indextermen in einem sinnvollen Rahmen ermöglichte.
 +
Betram 217
  
(Quelle: Vgl. Wersig 1985, S 14)
+
==Thesaurusaufbau==
 +
Zur Erstellung eines Thesaurus ist es notwendig den Bezugsrahmen einzugrenzen, denn ein Thesaurus kann den Anforderungen bezüglich Eindeutigkeit, Verbindlichkeit und Übersichtlichkeit nur dann gerecht werden, wenn der entsprechende Sachverhalt klar umrissen ist. Es ist also sinnvoll, sich auf einen bestimmten, überschaubaren Gegenstandsbereich zu beziehen, und Spezifitätsgrad (Allgemein vs. Speziell), Sprachstil (Wissenschaftlich vs. Allgemein) und Umfang zu konkretisieren.
  
Im folgenden Schaubild ist diese Problematik am Beispiel des Dokumentationsprozesses dargestellt:
+
Wenn die Rahmenbedingungen festgelegt sind, wird anhand geeigneter Quellen (z.B. Experten, Fachliteratur, Fachwörterbücher, bereits existierende Thesauri, etc.) eine Wortgutsammlung erstellt. (Quelle: Burkart, S 141f)
 
 
[[bild:Dokumentationsprozess.JPG]]<br>
 
(Quelle: Vgl. Wersig 1985, S 15)
 
 
 
*Autoren setzen Begriffe in Bezeichnungen um.
 
 
*Der Dokumentar muss diese verstehen, d.h. ihnen wieder Begriffe zuordnen.
 
 
 
*Im Zuge der [[Indexierung]] werden diese dann wieder in Bezeichnungen umgesetzt.
 
 
 
*Benutzer formulieren ihre Frage, d.h. Begriffe werden wiederum in Bezeichnungen umgesetzt.
 
 
 
*Der Dokumentar muss die Frage verstehen, ihr Begriffe zuordnen.
 
 
 
*Diese werden wieder in Bezeichnungen für eine Suchanfrage umgesetzt.
 
 
 
Demnach ist die Aufgabe einer [[Dokumentationssprache]], Dokumente inhaltlich so zu  Beschreiben, dass die Bezeichnungen zwei und vier bei einer Suchanfrage übereinstimmen.
 
(Quelle: Wersig 1985, S.14-18)
 
 
 
== Dokumentationssprache Thesaurus ==
 
Wie in der Grundproblematik geschildert, bedarf es, um z.B. im Zuge des [[Information Retrieval]] ein Dokument in einer Datenbank (wieder-) zu finden, einer  [[Dokumentationssprache]], die die Nachteile der natürlichen Sprache ausgleicht. Eine [[Dokumentationssprache]] ist definiert als "die „Sprache“, in der Dokumente inhaltlich beschrieben werden. Hierbei kann es sich um eine (strukturierte oder unstrukturierte) Menge natürlichsprachiger Ausdrücke handeln (ein Beispiel hierfür sind die Thesauri, strukturierte Menge von [[Deskriptoren]]), oder um eine künstliche Sprache (z.B. Klassifikationen, die Kombinationen von Buchstaben, Ziffern und anderen Zeichen wie Punkt und Komma verwenden)“. (Quelle: [http://is.uni-sb.de/studium/handbuch/exkurs.ind Luckhardt]2.1 Dokumentationssprache)
 
 
 
[[definition::Nach DIN 1463 ist ein Thesaurus im Bereich der Information und Dokumentation eine geordnete Zusammenstellung von Begriffen und ihren (vorwiegend natürlichsprachigen) Bezeichnungen]], die in einem Dokumentationsgebiet zum Indexieren, Speichern und Wiederauffinden dient. (Quelle: vgl. DIN 1463 z.B. In: Wersig 1985)
 
 
 
'''Weiterhin ist ein Thesaurus durch folgende Merkmale gekennzeichnet:'''
 
 
 
*Eindeutige Beziehung zwischen Begriffen und Bezeichnungen
 
 
 
*Vollständige Erfassung von Synonymen
 
 
 
*Besondere Kennzeichnung von Homonymen und Polysemen
 
 
 
*Eindeutige Bezeichnung eines jeden Begriffs
 
 
 
*Beziehungen zwischen Begriffen
 
 
 
*Präskriptivität: Thesaurus legt fest, welche begrifflichen Einheiten zur Verfügung gestellt und wie sie repräsentiert werden
 
(Quelle: Vgl. Burkart, S. 141)
 
 
 
== Thesaurusaufbau ==
 
Zur Erstellung eines Thesaurus ist es notwendig den Bezugsrahmen einzugrenzen: Denn ein Thesaurus kann den Anforderungen bezüglich Eindeutigkeit, Verbindlichkeit und Übersichtlichkeit nur dann gerecht werden, wenn der entsprechende Sachverhalt klar umrissen ist.
 
Es ist also sinnvoll, sich auf einen bestimmten, überschaubaren Gegenstandsbereich zu beziehen, und Spezifitätsgrad (Allgemein vs. Speziell), Sprachstil (Wissenschaftlich vs. Allgemein) und Umfang zu konkretisieren.
 
 
 
Wenn die Rahmenbedingungen festgelegt sind, wird anhand geeigneter Quellen (z.B. Experten, Fachliteratur, Fachwörterbücher, bereits existierende Thesauri, etc.) eine Wortgutsammlung erstellt.  
 
(Quelle: Burkart, S 141f)
 
 
 
== Terminologische Kontrolle ==
 
Da in der erstellten Wortgutsammlung noch die Unklarheiten und [[Mehrdeutigkeit|Mehrdeutigkeiten]] der natürlichen Sprache enthalten sind, ist die terminologische Kontrolle unerlässlich für die Eindeutigkeit der Beziehung zwischen Bezeichnungen und Begriffen. Die terminologische Kontrolle erfolgt durch die Synonymkontrolle, die Polysemkontrolle und die Zerlegungskontrolle.
 
  
 +
===Terminologische Kontrolle===
 +
Da in der erstellten Wortgutsammlung noch Unklarheiten und Mehrdeutigkeiten aus der natürlichen Sprache enthalten sind, ist die terminologische Kontrolle unerlässlich für die Eindeutigkeit der Beziehung zwischen Bezeichnungen und Begriffen. Die terminologische Kontrolle erfolgt durch die Synonymkontrolle, die Polysemkontrolle und die Zerlegungskontrolle.
 +
Burkhart 142
 
===Synonymkontrolle===
 
===Synonymkontrolle===
Bei der Synonymkontrolle sollen alle als Synonym erkannten Begriffe einer Äquivalenzklasse zugeordnet werden; d.h. es werden alle Bezeichnungen zusammengefasst, die den gleichen Begriff repräsentieren.
+
Bei der Synonymkontrolle sollen alle als Synonym erkannten Begriffe einer Äquivalenzklasse zugeordnet werden; d.h. es werden alle Bezeichnungen in einer Äquivalenzklasse zusammengefasst, die den gleichen Begriff repräsentieren.
  
 
'''Vollständige Synonymie:'''
 
'''Vollständige Synonymie:'''
Zeile 79: Zeile 47:
 
Samstag – Sonnabend
 
Samstag – Sonnabend
  
'''Pars pro toto Übertragung:'''  
+
'''Pars pro toto Übertragung:'''
  
 
Rundfunk – Hörfunk
 
Rundfunk – Hörfunk
Zeile 89: Zeile 57:
 
Wohnen - Wohnung
 
Wohnen - Wohnung
  
===Polysemkontrolle===
+
Burkhart 143, betram 220
Der entgegengesetzte Vorgang zur Synonymkontrolle ist die Polysemkontrolle. Hier werden Bezeichnungen, die unterschiedliche Bedeutungen aufweisen, differenziert und verschiedenen Fachgebieten zugeordnet:
+
===Homonym- und Polysemkontrolle===
 +
Die Homonym- und Polysemkontrolle macht mehrdeutige Benennungen eindeutig. Dieser Vorgang wird als Disambiguierung bezeichnet. Hier werden Bezeichnungen, die unterschiedliche Bedeutungen aufweisen, differenziert und verschiedenen Fachgebieten zugeordnet. Dazu kann nur eine Bedeutung beibehalten werden und die anderen explizit exkludiert werden oder das Homonym/Polysem wird durch eine eindeutige Benennung ersetzt. Als weiteres Vorgehen wird das Anfügen eines Homonymzusatzes verwendet.
  
 
Schloss (Gebäude) - Schloss (Schließmechanismus)
 
Schloss (Gebäude) - Schloss (Schließmechanismus)
  
 
Hahn (Haustier) - Hahn (Wasserhahn) - Hahn (Wetterhahn)
 
Hahn (Haustier) - Hahn (Wasserhahn) - Hahn (Wetterhahn)
 
+
Burkhart 143-144
 +
Bertram 219
 
===Zerlegungskontrolle===
 
===Zerlegungskontrolle===
Die Zerlegungskontrolle betrifft Komposita; hier wird zwischen der [[Morphologie|morphologischen]] Zerlegung und der semantischen Zerlegung unterschieden.
+
Die Zerlegungskontrolle betrifft Komposita; hier wird zwischen der morphologischen Zerlegung und der semantischen Zerlegung unterschieden.
  
 
Bei der '''morphologischen Zerlegung''' wird ein zusammengesetztes Wort in seine Grundwörter aufgeteilt:
 
Bei der '''morphologischen Zerlegung''' wird ein zusammengesetztes Wort in seine Grundwörter aufgeteilt:
Zeile 105: Zeile 75:
 
Bei der '''semantischen Zerlegung''' wird ein Begriff in seine Begriffsteile zerlegt. Diese Begriffsteile werden durch im Thesaurus vorhandene Bezeichnungen ausgedrückt
 
Bei der '''semantischen Zerlegung''' wird ein Begriff in seine Begriffsteile zerlegt. Diese Begriffsteile werden durch im Thesaurus vorhandene Bezeichnungen ausgedrückt
  
Kaffetasse Kaffe + Tasse
+
Kaffetasse Kaffe + Tasse
 
+
Burkhart 144
== Äquivalenzklasse - Deskriptor ==
+
====Vor- und Nachteile einer Begriffszerlegung====
Die aus der terminologischen Kontrolle entstandenen Begriffseinheiten werden als Äquivalenzklassen bezeichnet. Die Darstellung der Äquivalenzklassen kann in einem Thesaurus unterschiedlich sein:
+
Die Zerlegungskontrolle ist insbesondere in der deutschen Sprache, welche nahezu unendliche Wortkombinationen zulässt ein zentrales Problem. Da dies grosse Auswirkungen auf den Aufbau eines Thesaurus hat, stellt sich oft die Frage, ob eine Zerlegungskontrolle entsprechende Vorteile birgt. Nachfolgend sollen daher die Vor- und Nachteile einer Begriffszerlegung aufgeführt werden.
 
 
Bei einem '''Thesaurus ohne Vorzugsbenennung''' sind alle Elemente einer Äquivalenzklasse uneingeschränkt für [[Indexierung]] und Retrieval verwendbar.
 
 
 
Bei einem '''Thesaurus mit Vorzugsbenennung''' wird ein Element der Äquivalenzklasse als Vorzugsbenennung ausgewählt und als Deskriptor bezeichnet.
 
[[Deskriptoren]] sind Schlagworte, die im Thesaurus enthalten und zur Indexierung zugelassen sind.
 
  
Nicht-Deskriptoren sind Schlagworte, die im Thesaurus enthalten, aber nicht zur Indexierung zugelassen sind.
+
Vorteile
 +
*zusätzliche sprachliche Einstiegsmöglichkeiten
 +
*erhöhte Vergabehäufigkeit der Deskriptoren
 +
*schlankes Gebrauchsvokabular
  
(Quellen: Vgl. Wersig 1985, S. 43-67, Burkart, S. 142-145)
+
Nachteile
 +
*Gefahr von Fehlverknüpfungen
 +
*Komplexere Thesaurusstruktur
 +
*Höhere Anforderungen an Indexierer
 +
*Begriffliche Beziehung zu Deskriptoren weniger gut möglich
 +
Bertrem 220- 222
 +
==Thesaurusvokabular==
 +
Die aus der terminologischen Kontrolle entstandenen Begriffseinheiten werden als Äquivalenzklassen bezeichnet. Die Darstellung der Äquivalenzklassen kann in einem Thesaurus unterschiedlich sein. Bei einem '''Thesaurus ohne Vorzugsbenennung''' sind alle Elemente einer Äquivalenzklasse uneingeschränkt für Indexierung und Retrieval verwendbar. In Gegensatz dazu wird bei einem '''Thesaurus mit Vorzugsbenennung''' wird ein Element der Äquivalenzklasse als Vorzugsbenennung ausgewählt und als Deskriptor bezeichnet. Deskriptoren sind Schlagworte, die im Thesaurus enthalten und zur Indexierung zugelassen sind.  
 +
Burkhart 145
  
== Relationen ==
+
Der Deskriptor ist ein aktives Element. Es ist genormt und terminologisch kontrolliert, somit ist es für die Indexierung und das Retrieval zugelasen und verbindlich. Nicht-Deskriptoren sind passive Elemente. Sie stellen Benennungen dar, welche im Thesaurus enthalten aber nicht zur Indexierung zugelassen sind.
Die Relationen begründen die Struktur des Thesaurus. Sie stellen die Beziehungen zwischen den einzelnen Äquivalenzklassen dar. Dadurch entsteht ein [[semantisches Netz]] über den gesamten Thesaurus, das durch Querbeziehungen zu anderen ähnlichen oder verwandten Begriffen verweist und zu besseren Ergebnissen bei [[Indexierung]] und [[Information Retrieval]] führt.
+
Bertram210
Hierbei wird zwischen der Äquivalenzrelation, der Hierarchierelation, der Assoziationsrelation und der Begriffskombinationen unterschieden.
 
  
 +
Im Bezug auf den Thesaurus stellen die Deskriptoren dessen Gebrauchsvokabular, die Nicht-Deskriptoren dessen Zugangsvokabular dar. Benennungen, welche bisher fehlen und bei welchen unklar ist, ob und mit welchem Status sie in den Thesaurus aufgenommen werden in ihrer Gesamtheit als Kandidatenvokabular bezeichnet.
 +
Bertram 210-211
 +
GRAFIK s.211
 +
==Relationen==
 +
Die Relationen begründen die Struktur des Thesaurus. Sie stellen die Beziehungen zwischen den einzelnen Äquivalenzklassen dar. Dadurch entsteht ein semantisches Netz über den gesamten Thesaurus, das durch Querbeziehungen zu anderen ähnlichen oder verwandten Begriffen verweist und zu besseren Ergebnissen bei Indexierung und Information Retrieval führt. Hierbei wird zwischen der Äquivalenzrelation, der Hierarchierelation, der Assoziationsrelation und der Begriffskombinationen unterschieden.
 
===Äquivalenzrelation===
 
===Äquivalenzrelation===
 
Bei der Äquivalenzrelation werden Bedeutungen als gleichwertig aufgefasst und Bezeichnungen zu Äquivalenzklassen zusammengeführt.
 
Bei der Äquivalenzrelation werden Bedeutungen als gleichwertig aufgefasst und Bezeichnungen zu Äquivalenzklassen zusammengeführt.
  
[[Bild:Äquivalenzrelation.JPG]]
+
Äquivalenzrelation
 
+
{| class="wikitable"
 +
|Sonnabend
 +
|BS
 +
|Samstag
 +
|-
 +
|Naturwissenschaft
 +
|BSU
 +
|Chemie, Biologie
 +
|}
 
BS = Benutze Synonym
 
BS = Benutze Synonym
  
 
BSU = Benutze spezifischen Unterbegriff
 
BSU = Benutze spezifischen Unterbegriff
  
 +
Burkahrt 147-148
 
===Hierarchische Relation===
 
===Hierarchische Relation===
 
Die hierarchische Relation drückt ein Über- und Unterordnungsverhältnis der Begriffe aus.
 
Die hierarchische Relation drückt ein Über- und Unterordnungsverhältnis der Begriffe aus.
  
'''Generische Relation''' (Abstraktionsfunktion)
+
Generische Relation (Abstraktionsfunktion)
  
[[Bild:Generische Relation.JPG]]
+
{| class="wikitable"
 +
|Kraftwagen
 +
|UB
 +
|Personenkraftwagen
 +
|-
 +
|Lastkraftwagen
 +
|OB
 +
|Kraftwagen
 +
|}
  
'''Partitive Relation''' (Bestandsrelation)
+
Partitive Relation (Bestandsrelation)
  
[[Bild:Partitive Relation.JPG]]
+
{| class="wikitable"
 +
|Auto
 +
|TP
 +
|Automotor
 +
|-
 +
|Karosserie
 +
|SP
 +
|Auto
 +
|}
  
 
UB = Unterbegriff
 
UB = Unterbegriff
Zeile 150: Zeile 155:
  
 
SP = Verbandsbegriff
 
SP = Verbandsbegriff
 +
Burkhart 148-149
  
 
===Assoziationsrelation===
 
===Assoziationsrelation===
 
Bei der Assoziationsrelation werden alle Relationen zwischen Begriffen erfasst, die weder eindeutig hierarchischer Natur sind, noch als äquivalent betrachtet werden können
 
Bei der Assoziationsrelation werden alle Relationen zwischen Begriffen erfasst, die weder eindeutig hierarchischer Natur sind, noch als äquivalent betrachtet werden können
  
[[Bild:Assoziationsfunktion.JPG]]
+
{| class="wikitable"
 +
|Obst
 +
|VB
 +
|Obstbaum
 +
|-
 +
|Hitze
 +
|VB
 +
|Kälte
 +
|-
 +
|Vater
 +
|VB
 +
|Sohn
 +
|}
  
 
VB = Verwandter Begriff
 
VB = Verwandter Begriff
 +
Burkhart 149
  
 
===Begriffskombination===
 
===Begriffskombination===
 
Bei der Begriffskombination wird eine Schnittmenge zwischen den Deskriptoren zweier Äquivalenzklassen erzeugt.
 
Bei der Begriffskombination wird eine Schnittmenge zwischen den Deskriptoren zweier Äquivalenzklassen erzeugt.
  
[[Bild:Begriffskombination.JPG]]
+
{| class="wikitable"
 +
|Botschftsgebäude
 +
|BK
 +
|Verwaltungsgebäude, diplomatische Vertretung
 +
|-
 +
|Verwaltungsgebäude
 +
|KB
 +
|Botschaftsgebäude
 +
|-
 +
|diplomatische Vertretung
 +
|KB
 +
|Botschaftsgebäude
 +
|}
  
 
BK = Benutze Kombination
 
BK = Benutze Kombination
Zeile 167: Zeile 198:
 
KB = Kombinationsbegriff
 
KB = Kombinationsbegriff
  
(Quellen:Vgl. [http://is.uni-sb.de/studium/handbuch/infoling/thesnlp#top Luckhardt],Grundsätzliches zu Thesauri und ihrer möglichen Verwendung in der MÜ, 2. Relationierung von Begriffen, Wersig 1985, S. 111-141 und Burkart, S. 147ff)
+
Burkhart 149-150
 
 
==Thesaurusteile ==
 
*Thesaurus-Manual: Einleitung zum Thesaurus
 
 
 
*Thesaurus-Hauptteil: Darstellung der Deskriptoren und ihren Relationen zu anderen Deskriptoren
 
 
 
*Thesaurus-Register: Register der  Dokumentationssprache, das den Zugang  zu den, im Thesaurus Hauptteil enthaltenen, Begriffen und Bezeichnungen ermöglicht
 
(Quelle: Vgl. Wersig 1985, S.156-210)
 
  
== Thesauruspflege ==
+
==Thesauruspflege==
 
Damit ein Thesaurus seinen Anforderungen gerecht bleiben kann, ist eine ständige Beobachtung der Entwicklung der Forschungsschwerpunkte des jeweiligen Fachs notwendig; dazu gehören z.B. die:
 
Damit ein Thesaurus seinen Anforderungen gerecht bleiben kann, ist eine ständige Beobachtung der Entwicklung der Forschungsschwerpunkte des jeweiligen Fachs notwendig; dazu gehören z.B. die:
  
 
*Beobachtung der fachsprachlichen Entwicklung
 
*Beobachtung der fachsprachlichen Entwicklung
 
 
*Beobachtung des Indexierungsverhaltens/der Indexierungsergebnisse
 
*Beobachtung des Indexierungsverhaltens/der Indexierungsergebnisse
 +
*Beobachtung des Benutzerverhaltens und der Rechercheergebnisse
 +
Burkart, S.151
  
*Beobachtung des Benutzerverhaltens und der Rechercheergebnisse
+
==Normen==
 +
Für Thesauri existieren verschiedene Normen. Nennenswert sind vor allem die Norm DIN 1463 („Erstellung und Weiterentwicklung von Thesauri“) sowie die ISO-Normen 2788 und 5964 („Guidelines for the establishment and development of multilingual thesauri“).
 +
Bertram 219
 +
==Thesaurussoftware==
 +
Obwohl die Erstellung eines Thesaurus nach wie vor eine hauptsächlich intellektuelle Tätigkeit ist, so kann diese durch Software erheblich unterstützt und erleichtert werden. Ein wesentlicher Vorteil ist hier die automatische Generierung von reziproken Begriffsbeziehungen sowie automatischen Konsistenzprüfungen. Bekannte Vertreter sind hier unter anderem:
 +
*Oracle Thesaurus Management
 +
*MIDOS
 +
*ThesaurusMaster
 +
*STRIDE
 +
*Synaptica
 +
*a.k.a. Library
  
(Quelle: Vgl. Burkart, S.151)
+
Bertram 230-232
 +
http://www.asindexing.org/about-indexing/thesauri/thesaurus-management-software/
 +
==Quellen==
  
== Literatur ==
 
  
*Burkart, Margarete (2004): Thesaurus. In: Kuhlen, R.; Seeger, Th.; Strauch, D. (Hrsg.): Grundlagen der praktischen Information und Dokumentation. München et al.: K.G. Saur, S. 141-154
+
==Weiterführende Literatur==
*[http://is.uni-sb.de/studium/handbuch/exkurs.ind Luckhardt, Heinz Dirk: Automatische und intellektuelle Indexierung.]In: Virtuelles Handbuch der Informationswissenschaft.
+
*Virtuelles Handbuch Informationswissenschaft: http://is.uni-sb.de/studium/handbuch/infoling/thesnlp
*[http://is.uni-sb.de/studium/handbuch/infoling/thesnlp#top Luckhardt, Heinz Dirk: Klassifikationen und Thesauri und die Verarbeitung natürlicher Sprache.] In: Virtuelles Handbuch der Informationswissenschaft. 
 
*Panyr, Jiri (1988): Thesaurus und wissensbasierte Systeme – Thesauri und Wissensbasen. In: Nachr. f. Dokum. 39, S. 209-215
 
 
*Wersig, G. (1985): Thesaurus-Leitfaden. Eine Einführung in das Thesaurus-Prinzip in Theorie und Praxis. München et al.: K.G. Saur
 
*Wersig, G. (1985): Thesaurus-Leitfaden. Eine Einführung in das Thesaurus-Prinzip in Theorie und Praxis. München et al.: K.G. Saur
  
(letzter Zugriff auf die Webquellen: 20.04.2011)
+
==Weblinks==
 +
*ISO 5964: http://www.iso.org/iso/catalogue_detail.htm?csnumber=12159
 +
*Normdaten-Standards: https://wiki.dnb.de/display/DINIAGKIM/Normdaten-Standards
 +
*MIDOS: http://www.progris.de/m6info/index.htm
 +
*Oracle Thesaurus Management: http://www.oracle.com/us/products/applications/health-sciences/e-clinical/thesaurus-management/index.html
 +
*ThesaurusMaster: http://www.dataharmony.com/services-view/thesaurus-master/
 +
*STRIDE: http://www.questans.co.uk/p100l2.html
 +
*Synaptica: http://www.synaptica.com/
 +
*a.k.a. Library: http://www.a-k-a.co/index.php/aka-library/
  
 
==Verwandte Begriffe==
 
==Verwandte Begriffe==
 
 
* [[broader::Dokumentationssprache]]
 
* [[broader::Dokumentationssprache]]
* [[related::Indexierung]]
+
* [[narrower::Einsprachiger Thesaurus]]
 +
* [[narrower::Mehrsprachiger Thesaurus]]
 +
* [[english::thesaurus]]
 +
* [[related::Synonym]]
 
* [[related::Deskriptor]]
 
* [[related::Deskriptor]]
* [[related::Klassifikation]]
+
* [[related::Äquivalenzklasse]]
* [[related::Fachinformation]]
+
* [[related::Homonym]]
 
+
* [[related::Relation]]
[[category:Informationserschließung]]
+
* [[Synonymous:: Synonymwörterbuch]]
[[category:Information Retrieval]]
 
[[category:Wissensrepräsentation]]
 

Version vom 21. Dezember 2014, 23:27 Uhr

Definition

„Ein Thesaurus im Bereich der Information und Dokumentation ist eine geordnete Zusammenstallung von Begriffen und ihren (vorwiegend natürlichsprachigen) Bezeichnungen, die in einem Dokumentationsgebiet zum Indexieren, Speichern und Wiederauffinden dient.“ Kks 141

„Im IuD-Bereich versteht man unter einem Thesaurus eine natürlichsprachig-basierte Dokumentationssprache zur inhaltlichen Feinerschliessung. Sie enthält eine geordnete Zusammenstellung von Begriffen und Benennungen, die zum Indexieren, Speichern und Wiederauffinden dokumentarischer Bezugseinheiten dient.“

Betram 209

Merkmale

Ein Thesaurus wird nach Burkhart durch folgende Merkmale gekennzeichnet:

  • Begriffe und Beziehungen werden eindeutig aufeinander bezogen („terminologische Kontrolle“), indem
    • Synonyme möglichst vollständig erfasst werden
    • Homonyme und Polyseme besonders gekennzeichnet werden
    • Für jeden Begriff eine Bezeichnung (Vorzugsbenennung, Begriffsnummer oder Notation) festgelegt wird, die den Begriff eindeutig vertritt
  • Beziehungen zwischen Begriffen (repräsentiert durch ihre Bezeichnungen) werden dargestellt
  • Der Thesaurus ist präskriptiv, indem er für seinen Geltungsbereich festlegt, welche begrifflichen Einheiten zur Verfügung gestellt werden und durch welche Bezeichnungen diese repräsentiert werden.

KKS 141

Wortherkunft und Entstehungsgeschichte

Ursprünglich bezeichnete der aus dem griechischen stammende Begriff „Thesaurus“ einen Ort zum Einsammeln und Aufbewahren von Schätzen und Weihgaben. Im Bereich der Sprachwissenschaften versteht man zur heutigen Zeit ein Synonymwörterbuch. Bertram 209

De Entwicklung von Thesauri wurde in der Mitte des 20. Jahrhunderts von der Motivation getrieben, sich von der starren und unflexiblen Präkombination abzuwenden und stattdessen eine benutzerfreundliche, natürliche Sprache zu verwenden. Schnell stellte sich das Bedürfnis nach einer Feinerschliessung von Dokumentbeständen in den Vordergrund, die eine Klassifikation nicht leistet. Durch die Entwicklung moderner Informationstechnologien wurde die physische Bindung der Erschliessung zu lösen und anstelle dessen digitale Stellvertreter zu verwenden. Dies erlaubte den polydimensionalen Zugriff auf Inhalte von Dokumenten, was die Vergabe von mehreren Indextermen in einem sinnvollen Rahmen ermöglichte. Betram 217

Thesaurusaufbau

Zur Erstellung eines Thesaurus ist es notwendig den Bezugsrahmen einzugrenzen, denn ein Thesaurus kann den Anforderungen bezüglich Eindeutigkeit, Verbindlichkeit und Übersichtlichkeit nur dann gerecht werden, wenn der entsprechende Sachverhalt klar umrissen ist. Es ist also sinnvoll, sich auf einen bestimmten, überschaubaren Gegenstandsbereich zu beziehen, und Spezifitätsgrad (Allgemein vs. Speziell), Sprachstil (Wissenschaftlich vs. Allgemein) und Umfang zu konkretisieren.

Wenn die Rahmenbedingungen festgelegt sind, wird anhand geeigneter Quellen (z.B. Experten, Fachliteratur, Fachwörterbücher, bereits existierende Thesauri, etc.) eine Wortgutsammlung erstellt. (Quelle: Burkart, S 141f)

Terminologische Kontrolle

Da in der erstellten Wortgutsammlung noch Unklarheiten und Mehrdeutigkeiten aus der natürlichen Sprache enthalten sind, ist die terminologische Kontrolle unerlässlich für die Eindeutigkeit der Beziehung zwischen Bezeichnungen und Begriffen. Die terminologische Kontrolle erfolgt durch die Synonymkontrolle, die Polysemkontrolle und die Zerlegungskontrolle. Burkhart 142

Synonymkontrolle

Bei der Synonymkontrolle sollen alle als Synonym erkannten Begriffe einer Äquivalenzklasse zugeordnet werden; d.h. es werden alle Bezeichnungen in einer Äquivalenzklasse zusammengefasst, die den gleichen Begriff repräsentieren.

Vollständige Synonymie:

Photographie – Fotografie

Frisör – Friseur

Unterschiedliche Konnotationen:

Pferd – Gaul

Samstag – Sonnabend

Pars pro toto Übertragung:

Rundfunk – Hörfunk

Quasi – Synonyme:

Härte – Weichheit

Wohnen - Wohnung

Burkhart 143, betram 220

Homonym- und Polysemkontrolle

Die Homonym- und Polysemkontrolle macht mehrdeutige Benennungen eindeutig. Dieser Vorgang wird als Disambiguierung bezeichnet. Hier werden Bezeichnungen, die unterschiedliche Bedeutungen aufweisen, differenziert und verschiedenen Fachgebieten zugeordnet. Dazu kann nur eine Bedeutung beibehalten werden und die anderen explizit exkludiert werden oder das Homonym/Polysem wird durch eine eindeutige Benennung ersetzt. Als weiteres Vorgehen wird das Anfügen eines Homonymzusatzes verwendet.

Schloss (Gebäude) - Schloss (Schließmechanismus)

Hahn (Haustier) - Hahn (Wasserhahn) - Hahn (Wetterhahn) Burkhart 143-144 Bertram 219

Zerlegungskontrolle

Die Zerlegungskontrolle betrifft Komposita; hier wird zwischen der morphologischen Zerlegung und der semantischen Zerlegung unterschieden.

Bei der morphologischen Zerlegung wird ein zusammengesetztes Wort in seine Grundwörter aufgeteilt:

arbeit , -er, -en, -barkeit, etc

Bei der semantischen Zerlegung wird ein Begriff in seine Begriffsteile zerlegt. Diese Begriffsteile werden durch im Thesaurus vorhandene Bezeichnungen ausgedrückt

Kaffetasse Kaffe + Tasse Burkhart 144

Vor- und Nachteile einer Begriffszerlegung

Die Zerlegungskontrolle ist insbesondere in der deutschen Sprache, welche nahezu unendliche Wortkombinationen zulässt ein zentrales Problem. Da dies grosse Auswirkungen auf den Aufbau eines Thesaurus hat, stellt sich oft die Frage, ob eine Zerlegungskontrolle entsprechende Vorteile birgt. Nachfolgend sollen daher die Vor- und Nachteile einer Begriffszerlegung aufgeführt werden.

Vorteile

  • zusätzliche sprachliche Einstiegsmöglichkeiten
  • erhöhte Vergabehäufigkeit der Deskriptoren
  • schlankes Gebrauchsvokabular

Nachteile

  • Gefahr von Fehlverknüpfungen
  • Komplexere Thesaurusstruktur
  • Höhere Anforderungen an Indexierer
  • Begriffliche Beziehung zu Deskriptoren weniger gut möglich

Bertrem 220- 222

Thesaurusvokabular

Die aus der terminologischen Kontrolle entstandenen Begriffseinheiten werden als Äquivalenzklassen bezeichnet. Die Darstellung der Äquivalenzklassen kann in einem Thesaurus unterschiedlich sein. Bei einem Thesaurus ohne Vorzugsbenennung sind alle Elemente einer Äquivalenzklasse uneingeschränkt für Indexierung und Retrieval verwendbar. In Gegensatz dazu wird bei einem Thesaurus mit Vorzugsbenennung wird ein Element der Äquivalenzklasse als Vorzugsbenennung ausgewählt und als Deskriptor bezeichnet. Deskriptoren sind Schlagworte, die im Thesaurus enthalten und zur Indexierung zugelassen sind. Burkhart 145

Der Deskriptor ist ein aktives Element. Es ist genormt und terminologisch kontrolliert, somit ist es für die Indexierung und das Retrieval zugelasen und verbindlich. Nicht-Deskriptoren sind passive Elemente. Sie stellen Benennungen dar, welche im Thesaurus enthalten aber nicht zur Indexierung zugelassen sind. Bertram210

Im Bezug auf den Thesaurus stellen die Deskriptoren dessen Gebrauchsvokabular, die Nicht-Deskriptoren dessen Zugangsvokabular dar. Benennungen, welche bisher fehlen und bei welchen unklar ist, ob und mit welchem Status sie in den Thesaurus aufgenommen werden in ihrer Gesamtheit als Kandidatenvokabular bezeichnet. Bertram 210-211 GRAFIK s.211

Relationen

Die Relationen begründen die Struktur des Thesaurus. Sie stellen die Beziehungen zwischen den einzelnen Äquivalenzklassen dar. Dadurch entsteht ein semantisches Netz über den gesamten Thesaurus, das durch Querbeziehungen zu anderen ähnlichen oder verwandten Begriffen verweist und zu besseren Ergebnissen bei Indexierung und Information Retrieval führt. Hierbei wird zwischen der Äquivalenzrelation, der Hierarchierelation, der Assoziationsrelation und der Begriffskombinationen unterschieden.

Äquivalenzrelation

Bei der Äquivalenzrelation werden Bedeutungen als gleichwertig aufgefasst und Bezeichnungen zu Äquivalenzklassen zusammengeführt.

Äquivalenzrelation

Sonnabend BS Samstag
Naturwissenschaft BSU Chemie, Biologie

BS = Benutze Synonym

BSU = Benutze spezifischen Unterbegriff

Burkahrt 147-148

Hierarchische Relation

Die hierarchische Relation drückt ein Über- und Unterordnungsverhältnis der Begriffe aus.

Generische Relation (Abstraktionsfunktion)

Kraftwagen UB Personenkraftwagen
Lastkraftwagen OB Kraftwagen

Partitive Relation (Bestandsrelation)

Auto TP Automotor
Karosserie SP Auto

UB = Unterbegriff

OB = Oberbegriff

TP = Teilbegriff

SP = Verbandsbegriff Burkhart 148-149

Assoziationsrelation

Bei der Assoziationsrelation werden alle Relationen zwischen Begriffen erfasst, die weder eindeutig hierarchischer Natur sind, noch als äquivalent betrachtet werden können

Obst VB Obstbaum
Hitze VB Kälte
Vater VB Sohn

VB = Verwandter Begriff Burkhart 149

Begriffskombination

Bei der Begriffskombination wird eine Schnittmenge zwischen den Deskriptoren zweier Äquivalenzklassen erzeugt.

Botschftsgebäude BK Verwaltungsgebäude, diplomatische Vertretung
Verwaltungsgebäude KB Botschaftsgebäude
diplomatische Vertretung KB Botschaftsgebäude

BK = Benutze Kombination

KB = Kombinationsbegriff

Burkhart 149-150

Thesauruspflege

Damit ein Thesaurus seinen Anforderungen gerecht bleiben kann, ist eine ständige Beobachtung der Entwicklung der Forschungsschwerpunkte des jeweiligen Fachs notwendig; dazu gehören z.B. die:

  • Beobachtung der fachsprachlichen Entwicklung
  • Beobachtung des Indexierungsverhaltens/der Indexierungsergebnisse
  • Beobachtung des Benutzerverhaltens und der Rechercheergebnisse

Burkart, S.151

Normen

Für Thesauri existieren verschiedene Normen. Nennenswert sind vor allem die Norm DIN 1463 („Erstellung und Weiterentwicklung von Thesauri“) sowie die ISO-Normen 2788 und 5964 („Guidelines for the establishment and development of multilingual thesauri“). Bertram 219

Thesaurussoftware

Obwohl die Erstellung eines Thesaurus nach wie vor eine hauptsächlich intellektuelle Tätigkeit ist, so kann diese durch Software erheblich unterstützt und erleichtert werden. Ein wesentlicher Vorteil ist hier die automatische Generierung von reziproken Begriffsbeziehungen sowie automatischen Konsistenzprüfungen. Bekannte Vertreter sind hier unter anderem:

  • Oracle Thesaurus Management
  • MIDOS
  • ThesaurusMaster
  • STRIDE
  • Synaptica
  • a.k.a. Library

Bertram 230-232 http://www.asindexing.org/about-indexing/thesauri/thesaurus-management-software/

Quellen

Weiterführende Literatur

Weblinks

Verwandte Begriffe

… weitere Daten zur Seite „Thesaurus
„Ein Thesaurus im Bereich der Information und Dokumentation ist eine geordnete Zusammenstallung von Begriffen und ihren (vorwiegend natürlichsprachigen) Bezeichnungen, die in einem Dokumentationsgebiet zum Indexieren, Speichern und Wiederauffinden dient.“ +