Thesaurus: Unterschied zwischen den Versionen
K |
|||
(29 dazwischenliegende Versionen von 4 Benutzern werden nicht angezeigt) | |||
Zeile 1: | Zeile 1: | ||
− | == | + | ==Definition== |
− | + | [[definition::„Ein Thesaurus im Bereich der Information und Dokumentation ist eine geordnete Zusammenstallung von Begriffen und ihren (vorwiegend natürlichsprachigen) Bezeichnungen, die in einem Dokumentationsgebiet zum Indexieren, Speichern und Wiederauffinden dient.“]] | |
+ | (Kuhlen et al. 2004, S. 141) | ||
− | + | „Im IuD-Bereich versteht man unter einem Thesaurus eine natürlichsprachig-basierte Dokumentationssprache zur inhaltlichen Feinerschliessung. Sie enthält eine geordnete Zusammenstellung von Begriffen und Benennungen, die zum Indexieren, Speichern und Wiederauffinden dokumentarischer Bezugseinheiten dient.“ | |
+ | (Bertram 2004, S. 209) | ||
− | + | ==Merkmale== | |
+ | Ein Thesaurus wird nach Burkhart durch folgende Merkmale gekennzeichnet: | ||
+ | *Begriffe und Beziehungen werden eindeutig aufeinander bezogen („terminologische Kontrolle“), indem | ||
+ | **Synonyme möglichst vollständig erfasst werden | ||
+ | **Homonyme und Polyseme besonders gekennzeichnet werden | ||
+ | **Für jeden Begriff eine Bezeichnung (Vorzugsbenennung, Begriffsnummer oder Notation) festgelegt wird, die den Begriff eindeutig vertritt | ||
+ | *Beziehungen zwischen Begriffen (repräsentiert durch ihre Bezeichnungen) werden dargestellt | ||
+ | *Der Thesaurus ist präskriptiv, indem er für seinen Geltungsbereich festlegt, welche begrifflichen Einheiten zur Verfügung gestellt werden und durch welche Bezeichnungen diese repräsentiert werden. | ||
+ | (Kuhlen et al. 2004, S. 141) | ||
− | + | ==Wortherkunft und Entstehungsgeschichte== | |
+ | Ursprünglich bezeichnete der aus dem griechischen stammende Begriff „Thesaurus“ einen Ort zum Einsammeln und Aufbewahren von Schätzen und Weihgaben. Im Bereich der Sprachwissenschaften versteht man zur heutigen Zeit ein Synonymwörterbuch. | ||
+ | (Bertram 2004, S. 209) | ||
− | + | De Entwicklung von Thesauri wurde in der Mitte des 20. Jahrhunderts von der Motivation getrieben, sich von der starren und unflexiblen Präkombination abzuwenden und stattdessen eine benutzerfreundliche, natürliche Sprache zu verwenden. Schnell stellte sich das Bedürfnis nach einer Feinerschliessung von Dokumentbeständen in den Vordergrund, die eine Klassifikation nicht leistet. Durch die Entwicklung moderner Informationstechnologien wurde die physische Bindung der Erschliessung zu lösen und anstelle dessen digitale Stellvertreter zu verwenden. Dies erlaubte den polydimensionalen Zugriff auf Inhalte von Dokumenten, was die Vergabe von mehreren Indextermen in einem sinnvollen Rahmen ermöglichte. | |
− | + | (Bertram 2004, S. 217) | |
− | + | ==Thesaurusaufbau== | |
− | + | Zur Erstellung eines Thesaurus ist es notwendig den Bezugsrahmen einzugrenzen, denn ein Thesaurus kann den Anforderungen bezüglich Eindeutigkeit, Verbindlichkeit und Übersichtlichkeit nur dann gerecht werden, wenn der entsprechende Sachverhalt klar umrissen ist. Es ist also sinnvoll, sich auf einen bestimmten, überschaubaren Gegenstandsbereich zu beziehen, und Spezifitätsgrad (Allgemein vs. Speziell), Sprachstil (Wissenschaftlich vs. Allgemein) und Umfang zu konkretisieren. | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | == Thesaurusaufbau == | ||
− | Zur Erstellung eines Thesaurus ist es notwendig den Bezugsrahmen einzugrenzen | ||
− | Es ist also sinnvoll, sich auf einen bestimmten, überschaubaren Gegenstandsbereich zu beziehen, und Spezifitätsgrad (Allgemein vs. Speziell), Sprachstil (Wissenschaftlich vs. Allgemein) und Umfang zu konkretisieren | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
+ | Wenn die Rahmenbedingungen festgelegt sind, wird anhand geeigneter Quellen (z.B. Experten, Fachliteratur, Fachwörterbücher, bereits existierende Thesauri, etc.) eine Wortgutsammlung erstellt. | ||
+ | (Kuhlen et al. 2004, S. 141) | ||
+ | ===Terminologische Kontrolle=== | ||
+ | Da in der erstellten Wortgutsammlung noch Unklarheiten und Mehrdeutigkeiten aus der natürlichen Sprache enthalten sind, ist die terminologische Kontrolle unerlässlich für die Eindeutigkeit der Beziehung zwischen Bezeichnungen und Begriffen. Die terminologische Kontrolle erfolgt durch die Synonymkontrolle, die Polysemkontrolle und die Zerlegungskontrolle. | ||
+ | (Kuhlen et al. 2004, S. 142) | ||
===Synonymkontrolle=== | ===Synonymkontrolle=== | ||
− | Bei der Synonymkontrolle sollen alle als Synonym erkannten Begriffe einer Äquivalenzklasse zugeordnet werden; d.h. es werden alle Bezeichnungen zusammengefasst, die den gleichen Begriff repräsentieren. | + | Bei der Synonymkontrolle sollen alle als Synonym erkannten Begriffe einer Äquivalenzklasse zugeordnet werden; d.h. es werden alle Bezeichnungen in einer Äquivalenzklasse zusammengefasst, die den gleichen Begriff repräsentieren. |
'''Vollständige Synonymie:''' | '''Vollständige Synonymie:''' | ||
Zeile 87: | Zeile 47: | ||
Samstag – Sonnabend | Samstag – Sonnabend | ||
− | '''Pars pro toto Übertragung:''' | + | '''Pars pro toto Übertragung:''' |
Rundfunk – Hörfunk | Rundfunk – Hörfunk | ||
Zeile 97: | Zeile 57: | ||
Wohnen - Wohnung | Wohnen - Wohnung | ||
− | ===Polysemkontrolle=== | + | (Kuhlen et al. 2004, S. 115; Bertram 2004, S. 220) |
− | + | ===Homonym- und Polysemkontrolle=== | |
+ | Die Homonym- und Polysemkontrolle macht mehrdeutige Benennungen eindeutig. Dieser Vorgang wird als Disambiguierung bezeichnet. Hier werden Bezeichnungen, die unterschiedliche Bedeutungen aufweisen, differenziert und verschiedenen Fachgebieten zugeordnet. Dazu kann nur eine Bedeutung beibehalten werden und die anderen explizit exkludiert werden oder das Homonym/Polysem wird durch eine eindeutige Benennung ersetzt. Als weiteres Vorgehen wird das Anfügen eines Homonymzusatzes verwendet. | ||
Schloss (Gebäude) - Schloss (Schließmechanismus) | Schloss (Gebäude) - Schloss (Schließmechanismus) | ||
Hahn (Haustier) - Hahn (Wasserhahn) - Hahn (Wetterhahn) | Hahn (Haustier) - Hahn (Wasserhahn) - Hahn (Wetterhahn) | ||
− | + | (Kuhlen et al. 2004, S. 143-144;Bertram 2004, S. 219) | |
===Zerlegungskontrolle=== | ===Zerlegungskontrolle=== | ||
Die Zerlegungskontrolle betrifft Komposita; hier wird zwischen der morphologischen Zerlegung und der semantischen Zerlegung unterschieden. | Die Zerlegungskontrolle betrifft Komposita; hier wird zwischen der morphologischen Zerlegung und der semantischen Zerlegung unterschieden. | ||
Zeile 113: | Zeile 74: | ||
Bei der '''semantischen Zerlegung''' wird ein Begriff in seine Begriffsteile zerlegt. Diese Begriffsteile werden durch im Thesaurus vorhandene Bezeichnungen ausgedrückt | Bei der '''semantischen Zerlegung''' wird ein Begriff in seine Begriffsteile zerlegt. Diese Begriffsteile werden durch im Thesaurus vorhandene Bezeichnungen ausgedrückt | ||
− | Kaffetasse | + | Kaffetasse Kaffe + Tasse |
− | + | (Kuhlen et al. 2004, S. 144) | |
− | == | + | ====Vor- und Nachteile einer Begriffszerlegung==== |
− | Die | + | Die Zerlegungskontrolle ist insbesondere in der deutschen Sprache, welche nahezu unendliche Wortkombinationen zulässt ein zentrales Problem. Da dies grosse Auswirkungen auf den Aufbau eines Thesaurus hat, stellt sich oft die Frage, ob eine Zerlegungskontrolle entsprechende Vorteile birgt. Nachfolgend sollen daher die Vor- und Nachteile einer Begriffszerlegung aufgeführt werden. |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
+ | Vorteile | ||
+ | *zusätzliche sprachliche Einstiegsmöglichkeiten | ||
+ | *erhöhte Vergabehäufigkeit der Deskriptoren | ||
+ | *schlankes Gebrauchsvokabular | ||
− | == | + | Nachteile |
− | Die | + | *Gefahr von Fehlverknüpfungen |
− | + | *Komplexere Thesaurusstruktur | |
+ | *Höhere Anforderungen an Indexierer | ||
+ | *Begriffliche Beziehung zu Deskriptoren weniger gut möglich | ||
+ | (Bertram 2004, S. 220- 222) | ||
+ | ==Thesaurusvokabular== | ||
+ | Die aus der terminologischen Kontrolle entstandenen Begriffseinheiten werden als Äquivalenzklassen bezeichnet. Die Darstellung der Äquivalenzklassen kann in einem Thesaurus unterschiedlich sein. Bei einem '''Thesaurus ohne Vorzugsbenennung''' sind alle Elemente einer Äquivalenzklasse uneingeschränkt für Indexierung und Retrieval verwendbar. In Gegensatz dazu wird bei einem '''Thesaurus mit Vorzugsbenennung''' wird ein Element der Äquivalenzklasse als Vorzugsbenennung ausgewählt und als Deskriptor bezeichnet. Deskriptoren sind Schlagworte, die im Thesaurus enthalten und zur Indexierung zugelassen sind. | ||
+ | (Kuhlen et al. 2004, S. 145) | ||
+ | Der Deskriptor ist ein aktives Element. Es ist genormt und terminologisch kontrolliert, somit ist es für die Indexierung und das Retrieval zugelasen und verbindlich. Nicht-Deskriptoren sind passive Elemente. Sie stellen Benennungen dar, welche im Thesaurus enthalten aber nicht zur Indexierung zugelassen sind. | ||
+ | (Bertram 2004, S. 210) | ||
+ | Im Bezug auf den Thesaurus stellen die Deskriptoren dessen Gebrauchsvokabular, die Nicht-Deskriptoren dessen Zugangsvokabular dar. Benennungen, welche bisher fehlen und bei welchen unklar ist, ob und mit welchem Status sie in den Thesaurus aufgenommen werden in ihrer Gesamtheit als Kandidatenvokabular bezeichnet. | ||
+ | (Bertram 2004, S. 210-211) | ||
+ | [[Datei:Bestandteile_thesaurusvokabular.png]] | ||
+ | ==Relationen== | ||
+ | Die Relationen begründen die Struktur des Thesaurus. Sie stellen die Beziehungen zwischen den einzelnen Äquivalenzklassen dar. Dadurch entsteht ein semantisches Netz über den gesamten Thesaurus, das durch Querbeziehungen zu anderen ähnlichen oder verwandten Begriffen verweist und zu besseren Ergebnissen bei Indexierung und Information Retrieval führt. Hierbei wird zwischen der Äquivalenzrelation, der Hierarchierelation, der Assoziationsrelation und der Begriffskombinationen unterschieden. | ||
===Äquivalenzrelation=== | ===Äquivalenzrelation=== | ||
Bei der Äquivalenzrelation werden Bedeutungen als gleichwertig aufgefasst und Bezeichnungen zu Äquivalenzklassen zusammengeführt. | Bei der Äquivalenzrelation werden Bedeutungen als gleichwertig aufgefasst und Bezeichnungen zu Äquivalenzklassen zusammengeführt. | ||
− | + | Äquivalenzrelation | |
− | + | {| class="wikitable" | |
+ | |Sonnabend | ||
+ | |BS | ||
+ | |Samstag | ||
+ | |- | ||
+ | |Naturwissenschaft | ||
+ | |BSU | ||
+ | |Chemie, Biologie | ||
+ | |} | ||
BS = Benutze Synonym | BS = Benutze Synonym | ||
BSU = Benutze spezifischen Unterbegriff | BSU = Benutze spezifischen Unterbegriff | ||
+ | (Kuhlen et al. 2004, S. 147-148) | ||
===Hierarchische Relation=== | ===Hierarchische Relation=== | ||
Die hierarchische Relation drückt ein Über- und Unterordnungsverhältnis der Begriffe aus. | Die hierarchische Relation drückt ein Über- und Unterordnungsverhältnis der Begriffe aus. | ||
− | + | Generische Relation (Abstraktionsfunktion) | |
− | + | {| class="wikitable" | |
+ | |Kraftwagen | ||
+ | |UB | ||
+ | |Personenkraftwagen | ||
+ | |- | ||
+ | |Lastkraftwagen | ||
+ | |OB | ||
+ | |Kraftwagen | ||
+ | |} | ||
− | + | Partitive Relation (Bestandsrelation) | |
− | + | {| class="wikitable" | |
+ | |Auto | ||
+ | |TP | ||
+ | |Automotor | ||
+ | |- | ||
+ | |Karosserie | ||
+ | |SP | ||
+ | |Auto | ||
+ | |} | ||
UB = Unterbegriff | UB = Unterbegriff | ||
Zeile 160: | Zeile 154: | ||
SP = Verbandsbegriff | SP = Verbandsbegriff | ||
− | + | (Kuhlen et al. 2004, S. 148-149) | |
===Assoziationsrelation=== | ===Assoziationsrelation=== | ||
Bei der Assoziationsrelation werden alle Relationen zwischen Begriffen erfasst, die weder eindeutig hierarchischer Natur sind, noch als äquivalent betrachtet werden können | Bei der Assoziationsrelation werden alle Relationen zwischen Begriffen erfasst, die weder eindeutig hierarchischer Natur sind, noch als äquivalent betrachtet werden können | ||
− | + | {| class="wikitable" | |
+ | |Obst | ||
+ | |VB | ||
+ | |Obstbaum | ||
+ | |- | ||
+ | |Hitze | ||
+ | |VB | ||
+ | |Kälte | ||
+ | |- | ||
+ | |Vater | ||
+ | |VB | ||
+ | |Sohn | ||
+ | |} | ||
VB = Verwandter Begriff | VB = Verwandter Begriff | ||
− | + | (Kuhlen et al. 2004, S. 149) | |
===Begriffskombination=== | ===Begriffskombination=== | ||
Bei der Begriffskombination wird eine Schnittmenge zwischen den Deskriptoren zweier Äquivalenzklassen erzeugt. | Bei der Begriffskombination wird eine Schnittmenge zwischen den Deskriptoren zweier Äquivalenzklassen erzeugt. | ||
− | + | {| class="wikitable" | |
+ | |Botschftsgebäude | ||
+ | |BK | ||
+ | |Verwaltungsgebäude, diplomatische Vertretung | ||
+ | |- | ||
+ | |Verwaltungsgebäude | ||
+ | |KB | ||
+ | |Botschaftsgebäude | ||
+ | |- | ||
+ | |diplomatische Vertretung | ||
+ | |KB | ||
+ | |Botschaftsgebäude | ||
+ | |} | ||
BK = Benutze Kombination | BK = Benutze Kombination | ||
Zeile 179: | Zeile 197: | ||
KB = Kombinationsbegriff | KB = Kombinationsbegriff | ||
− | ( | + | (Kuhlen et al. 2004, S. 149-150) |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
+ | ==Thesauruspflege== | ||
+ | Damit ein Thesaurus seinen Anforderungen gerecht bleiben kann, ist eine ständige Beobachtung der Entwicklung der Forschungsschwerpunkte des jeweiligen Fachs notwendig; dazu gehören z.B. die: | ||
+ | *Beobachtung der fachsprachlichen Entwicklung | ||
+ | *Beobachtung des Indexierungsverhaltens/der Indexierungsergebnisse | ||
+ | *Beobachtung des Benutzerverhaltens und der Rechercheergebnisse | ||
+ | (Kuhlen et al. 2004, S. 151) | ||
+ | ==Normen== | ||
+ | Für Thesauri existieren verschiedene Normen. Nennenswert sind vor allem die Norm DIN 1463 („Erstellung und Weiterentwicklung von Thesauri“) sowie die ISO-Normen 2788 und 5964 („Guidelines for the establishment and development of multilingual thesauri“). | ||
+ | (Bertram 2004, S. 219) | ||
+ | ==Thesaurussoftware== | ||
+ | Obwohl die Erstellung eines Thesaurus nach wie vor eine hauptsächlich intellektuelle Tätigkeit ist, so kann diese durch Software erheblich unterstützt und erleichtert werden. Ein wesentlicher Vorteil ist hier die automatische Generierung von reziproken Begriffsbeziehungen sowie automatischen Konsistenzprüfungen. Bekannte Vertreter sind hier unter anderem: | ||
+ | *Oracle Thesaurus Management | ||
+ | *MIDOS | ||
+ | *ThesaurusMaster | ||
+ | *STRIDE | ||
+ | *Synaptica | ||
+ | *a.k.a. Library | ||
+ | (Bertram 2004, S. 230-232; Milstead 2002) | ||
+ | ==Quellen== | ||
+ | *Bertram, Jutta (2005): ''Einführung in die inhaltliche Erschließung: Grundlagen, Methoden, Instrumente''. Content and communication: Bd. 2. Würzburg: Ergon-Verl. | ||
+ | *Kuhlen, Rainer; Seeger, Thomas; Strauch, Dietmar (2004): ''Grundlagen der praktischen Information und Dokumentation: Band 1: Handbuch zur Einführung in die Informationswissenschaft und -praxis - Band 2: Glossar'' (5. Aufl., 5th completely new Edition). Berlin: De Gruyter. Verfügbar unter: http://www.degruyter.com/doi/book/10.1515/9783110964110. | ||
+ | *Milstead, Jessica (2002): ''Thesaurus Management Software''. Verfügbar unter: http://www.asindexing.org/about-indexing/thesauri/thesaurus-management-software/. [21.12.2014 | ||
+ | ==Weiterführende Literatur== | ||
+ | *Virtuelles Handbuch Informationswissenschaft: http://is.uni-sb.de/studium/handbuch/infoling/thesnlp | ||
+ | *Wersig, Gernot (1985): ''Thesaurus-Leitfaden. Eine Einführung in das Thesaurus-Prinzip in Theorie und Praxis''. München et al.: K.G. Saur | ||
+ | ==Weblinks== | ||
+ | *ISO 5964: http://www.iso.org/iso/catalogue_detail.htm?csnumber=12159 | ||
+ | *Normdaten-Standards: https://wiki.dnb.de/display/DINIAGKIM/Normdaten-Standards | ||
+ | *MIDOS: http://www.progris.de/m6info/index.htm | ||
+ | *Oracle Thesaurus Management: http://www.oracle.com/us/products/applications/health-sciences/e-clinical/thesaurus-management/index.html | ||
+ | *ThesaurusMaster: http://www.dataharmony.com/services-view/thesaurus-master/ | ||
+ | *STRIDE: http://www.questans.co.uk/p100l2.html | ||
+ | *Synaptica: http://www.synaptica.com/ | ||
+ | *a.k.a. Library: http://www.a-k-a.co/index.php/aka-library/ | ||
− | [[ | + | ==Verwandte Begriffe== |
+ | * [[broader::Dokumentationssprache]] | ||
+ | * [[narrower::Einsprachiger Thesaurus]] | ||
+ | * [[narrower::Mehrsprachiger Thesaurus]] | ||
+ | * [[english::thesaurus]] | ||
+ | * [[related::Synonym]] | ||
+ | * [[related::Deskriptor]] | ||
+ | * [[related::Äquivalenzklasse]] | ||
+ | * [[related::Homonym]] | ||
+ | * [[related::Relation]] | ||
+ | * [[Synonymous:: Synonymwörterbuch]] |
Aktuelle Version vom 22. Dezember 2014, 00:09 Uhr
Inhaltsverzeichnis
Definition
„Ein Thesaurus im Bereich der Information und Dokumentation ist eine geordnete Zusammenstallung von Begriffen und ihren (vorwiegend natürlichsprachigen) Bezeichnungen, die in einem Dokumentationsgebiet zum Indexieren, Speichern und Wiederauffinden dient.“ (Kuhlen et al. 2004, S. 141)
„Im IuD-Bereich versteht man unter einem Thesaurus eine natürlichsprachig-basierte Dokumentationssprache zur inhaltlichen Feinerschliessung. Sie enthält eine geordnete Zusammenstellung von Begriffen und Benennungen, die zum Indexieren, Speichern und Wiederauffinden dokumentarischer Bezugseinheiten dient.“ (Bertram 2004, S. 209)
Merkmale
Ein Thesaurus wird nach Burkhart durch folgende Merkmale gekennzeichnet:
- Begriffe und Beziehungen werden eindeutig aufeinander bezogen („terminologische Kontrolle“), indem
- Synonyme möglichst vollständig erfasst werden
- Homonyme und Polyseme besonders gekennzeichnet werden
- Für jeden Begriff eine Bezeichnung (Vorzugsbenennung, Begriffsnummer oder Notation) festgelegt wird, die den Begriff eindeutig vertritt
- Beziehungen zwischen Begriffen (repräsentiert durch ihre Bezeichnungen) werden dargestellt
- Der Thesaurus ist präskriptiv, indem er für seinen Geltungsbereich festlegt, welche begrifflichen Einheiten zur Verfügung gestellt werden und durch welche Bezeichnungen diese repräsentiert werden.
(Kuhlen et al. 2004, S. 141)
Wortherkunft und Entstehungsgeschichte
Ursprünglich bezeichnete der aus dem griechischen stammende Begriff „Thesaurus“ einen Ort zum Einsammeln und Aufbewahren von Schätzen und Weihgaben. Im Bereich der Sprachwissenschaften versteht man zur heutigen Zeit ein Synonymwörterbuch. (Bertram 2004, S. 209)
De Entwicklung von Thesauri wurde in der Mitte des 20. Jahrhunderts von der Motivation getrieben, sich von der starren und unflexiblen Präkombination abzuwenden und stattdessen eine benutzerfreundliche, natürliche Sprache zu verwenden. Schnell stellte sich das Bedürfnis nach einer Feinerschliessung von Dokumentbeständen in den Vordergrund, die eine Klassifikation nicht leistet. Durch die Entwicklung moderner Informationstechnologien wurde die physische Bindung der Erschliessung zu lösen und anstelle dessen digitale Stellvertreter zu verwenden. Dies erlaubte den polydimensionalen Zugriff auf Inhalte von Dokumenten, was die Vergabe von mehreren Indextermen in einem sinnvollen Rahmen ermöglichte. (Bertram 2004, S. 217)
Thesaurusaufbau
Zur Erstellung eines Thesaurus ist es notwendig den Bezugsrahmen einzugrenzen, denn ein Thesaurus kann den Anforderungen bezüglich Eindeutigkeit, Verbindlichkeit und Übersichtlichkeit nur dann gerecht werden, wenn der entsprechende Sachverhalt klar umrissen ist. Es ist also sinnvoll, sich auf einen bestimmten, überschaubaren Gegenstandsbereich zu beziehen, und Spezifitätsgrad (Allgemein vs. Speziell), Sprachstil (Wissenschaftlich vs. Allgemein) und Umfang zu konkretisieren.
Wenn die Rahmenbedingungen festgelegt sind, wird anhand geeigneter Quellen (z.B. Experten, Fachliteratur, Fachwörterbücher, bereits existierende Thesauri, etc.) eine Wortgutsammlung erstellt. (Kuhlen et al. 2004, S. 141)
Terminologische Kontrolle
Da in der erstellten Wortgutsammlung noch Unklarheiten und Mehrdeutigkeiten aus der natürlichen Sprache enthalten sind, ist die terminologische Kontrolle unerlässlich für die Eindeutigkeit der Beziehung zwischen Bezeichnungen und Begriffen. Die terminologische Kontrolle erfolgt durch die Synonymkontrolle, die Polysemkontrolle und die Zerlegungskontrolle. (Kuhlen et al. 2004, S. 142)
Synonymkontrolle
Bei der Synonymkontrolle sollen alle als Synonym erkannten Begriffe einer Äquivalenzklasse zugeordnet werden; d.h. es werden alle Bezeichnungen in einer Äquivalenzklasse zusammengefasst, die den gleichen Begriff repräsentieren.
Vollständige Synonymie:
Photographie – Fotografie
Frisör – Friseur
Unterschiedliche Konnotationen:
Pferd – Gaul
Samstag – Sonnabend
Pars pro toto Übertragung:
Rundfunk – Hörfunk
Quasi – Synonyme:
Härte – Weichheit
Wohnen - Wohnung
(Kuhlen et al. 2004, S. 115; Bertram 2004, S. 220)
Homonym- und Polysemkontrolle
Die Homonym- und Polysemkontrolle macht mehrdeutige Benennungen eindeutig. Dieser Vorgang wird als Disambiguierung bezeichnet. Hier werden Bezeichnungen, die unterschiedliche Bedeutungen aufweisen, differenziert und verschiedenen Fachgebieten zugeordnet. Dazu kann nur eine Bedeutung beibehalten werden und die anderen explizit exkludiert werden oder das Homonym/Polysem wird durch eine eindeutige Benennung ersetzt. Als weiteres Vorgehen wird das Anfügen eines Homonymzusatzes verwendet.
Schloss (Gebäude) - Schloss (Schließmechanismus)
Hahn (Haustier) - Hahn (Wasserhahn) - Hahn (Wetterhahn) (Kuhlen et al. 2004, S. 143-144;Bertram 2004, S. 219)
Zerlegungskontrolle
Die Zerlegungskontrolle betrifft Komposita; hier wird zwischen der morphologischen Zerlegung und der semantischen Zerlegung unterschieden.
Bei der morphologischen Zerlegung wird ein zusammengesetztes Wort in seine Grundwörter aufgeteilt:
arbeit , -er, -en, -barkeit, etc
Bei der semantischen Zerlegung wird ein Begriff in seine Begriffsteile zerlegt. Diese Begriffsteile werden durch im Thesaurus vorhandene Bezeichnungen ausgedrückt
Kaffetasse Kaffe + Tasse (Kuhlen et al. 2004, S. 144)
Vor- und Nachteile einer Begriffszerlegung
Die Zerlegungskontrolle ist insbesondere in der deutschen Sprache, welche nahezu unendliche Wortkombinationen zulässt ein zentrales Problem. Da dies grosse Auswirkungen auf den Aufbau eines Thesaurus hat, stellt sich oft die Frage, ob eine Zerlegungskontrolle entsprechende Vorteile birgt. Nachfolgend sollen daher die Vor- und Nachteile einer Begriffszerlegung aufgeführt werden.
Vorteile
- zusätzliche sprachliche Einstiegsmöglichkeiten
- erhöhte Vergabehäufigkeit der Deskriptoren
- schlankes Gebrauchsvokabular
Nachteile
- Gefahr von Fehlverknüpfungen
- Komplexere Thesaurusstruktur
- Höhere Anforderungen an Indexierer
- Begriffliche Beziehung zu Deskriptoren weniger gut möglich
(Bertram 2004, S. 220- 222)
Thesaurusvokabular
Die aus der terminologischen Kontrolle entstandenen Begriffseinheiten werden als Äquivalenzklassen bezeichnet. Die Darstellung der Äquivalenzklassen kann in einem Thesaurus unterschiedlich sein. Bei einem Thesaurus ohne Vorzugsbenennung sind alle Elemente einer Äquivalenzklasse uneingeschränkt für Indexierung und Retrieval verwendbar. In Gegensatz dazu wird bei einem Thesaurus mit Vorzugsbenennung wird ein Element der Äquivalenzklasse als Vorzugsbenennung ausgewählt und als Deskriptor bezeichnet. Deskriptoren sind Schlagworte, die im Thesaurus enthalten und zur Indexierung zugelassen sind. (Kuhlen et al. 2004, S. 145) Der Deskriptor ist ein aktives Element. Es ist genormt und terminologisch kontrolliert, somit ist es für die Indexierung und das Retrieval zugelasen und verbindlich. Nicht-Deskriptoren sind passive Elemente. Sie stellen Benennungen dar, welche im Thesaurus enthalten aber nicht zur Indexierung zugelassen sind. (Bertram 2004, S. 210)
Im Bezug auf den Thesaurus stellen die Deskriptoren dessen Gebrauchsvokabular, die Nicht-Deskriptoren dessen Zugangsvokabular dar. Benennungen, welche bisher fehlen und bei welchen unklar ist, ob und mit welchem Status sie in den Thesaurus aufgenommen werden in ihrer Gesamtheit als Kandidatenvokabular bezeichnet. (Bertram 2004, S. 210-211)
Relationen
Die Relationen begründen die Struktur des Thesaurus. Sie stellen die Beziehungen zwischen den einzelnen Äquivalenzklassen dar. Dadurch entsteht ein semantisches Netz über den gesamten Thesaurus, das durch Querbeziehungen zu anderen ähnlichen oder verwandten Begriffen verweist und zu besseren Ergebnissen bei Indexierung und Information Retrieval führt. Hierbei wird zwischen der Äquivalenzrelation, der Hierarchierelation, der Assoziationsrelation und der Begriffskombinationen unterschieden.
Äquivalenzrelation
Bei der Äquivalenzrelation werden Bedeutungen als gleichwertig aufgefasst und Bezeichnungen zu Äquivalenzklassen zusammengeführt.
Äquivalenzrelation
Sonnabend | BS | Samstag |
Naturwissenschaft | BSU | Chemie, Biologie |
BS = Benutze Synonym
BSU = Benutze spezifischen Unterbegriff
(Kuhlen et al. 2004, S. 147-148)
Hierarchische Relation
Die hierarchische Relation drückt ein Über- und Unterordnungsverhältnis der Begriffe aus.
Generische Relation (Abstraktionsfunktion)
Kraftwagen | UB | Personenkraftwagen |
Lastkraftwagen | OB | Kraftwagen |
Partitive Relation (Bestandsrelation)
Auto | TP | Automotor |
Karosserie | SP | Auto |
UB = Unterbegriff
OB = Oberbegriff
TP = Teilbegriff
SP = Verbandsbegriff (Kuhlen et al. 2004, S. 148-149)
Assoziationsrelation
Bei der Assoziationsrelation werden alle Relationen zwischen Begriffen erfasst, die weder eindeutig hierarchischer Natur sind, noch als äquivalent betrachtet werden können
Obst | VB | Obstbaum |
Hitze | VB | Kälte |
Vater | VB | Sohn |
VB = Verwandter Begriff (Kuhlen et al. 2004, S. 149)
Begriffskombination
Bei der Begriffskombination wird eine Schnittmenge zwischen den Deskriptoren zweier Äquivalenzklassen erzeugt.
Botschftsgebäude | BK | Verwaltungsgebäude, diplomatische Vertretung |
Verwaltungsgebäude | KB | Botschaftsgebäude |
diplomatische Vertretung | KB | Botschaftsgebäude |
BK = Benutze Kombination
KB = Kombinationsbegriff
(Kuhlen et al. 2004, S. 149-150)
Thesauruspflege
Damit ein Thesaurus seinen Anforderungen gerecht bleiben kann, ist eine ständige Beobachtung der Entwicklung der Forschungsschwerpunkte des jeweiligen Fachs notwendig; dazu gehören z.B. die:
- Beobachtung der fachsprachlichen Entwicklung
- Beobachtung des Indexierungsverhaltens/der Indexierungsergebnisse
- Beobachtung des Benutzerverhaltens und der Rechercheergebnisse
(Kuhlen et al. 2004, S. 151)
Normen
Für Thesauri existieren verschiedene Normen. Nennenswert sind vor allem die Norm DIN 1463 („Erstellung und Weiterentwicklung von Thesauri“) sowie die ISO-Normen 2788 und 5964 („Guidelines for the establishment and development of multilingual thesauri“). (Bertram 2004, S. 219)
Thesaurussoftware
Obwohl die Erstellung eines Thesaurus nach wie vor eine hauptsächlich intellektuelle Tätigkeit ist, so kann diese durch Software erheblich unterstützt und erleichtert werden. Ein wesentlicher Vorteil ist hier die automatische Generierung von reziproken Begriffsbeziehungen sowie automatischen Konsistenzprüfungen. Bekannte Vertreter sind hier unter anderem:
- Oracle Thesaurus Management
- MIDOS
- ThesaurusMaster
- STRIDE
- Synaptica
- a.k.a. Library
(Bertram 2004, S. 230-232; Milstead 2002)
Quellen
- Bertram, Jutta (2005): Einführung in die inhaltliche Erschließung: Grundlagen, Methoden, Instrumente. Content and communication: Bd. 2. Würzburg: Ergon-Verl.
- Kuhlen, Rainer; Seeger, Thomas; Strauch, Dietmar (2004): Grundlagen der praktischen Information und Dokumentation: Band 1: Handbuch zur Einführung in die Informationswissenschaft und -praxis - Band 2: Glossar (5. Aufl., 5th completely new Edition). Berlin: De Gruyter. Verfügbar unter: http://www.degruyter.com/doi/book/10.1515/9783110964110.
- Milstead, Jessica (2002): Thesaurus Management Software. Verfügbar unter: http://www.asindexing.org/about-indexing/thesauri/thesaurus-management-software/. [21.12.2014
Weiterführende Literatur
- Virtuelles Handbuch Informationswissenschaft: http://is.uni-sb.de/studium/handbuch/infoling/thesnlp
- Wersig, Gernot (1985): Thesaurus-Leitfaden. Eine Einführung in das Thesaurus-Prinzip in Theorie und Praxis. München et al.: K.G. Saur
Weblinks
- ISO 5964: http://www.iso.org/iso/catalogue_detail.htm?csnumber=12159
- Normdaten-Standards: https://wiki.dnb.de/display/DINIAGKIM/Normdaten-Standards
- MIDOS: http://www.progris.de/m6info/index.htm
- Oracle Thesaurus Management: http://www.oracle.com/us/products/applications/health-sciences/e-clinical/thesaurus-management/index.html
- ThesaurusMaster: http://www.dataharmony.com/services-view/thesaurus-master/
- STRIDE: http://www.questans.co.uk/p100l2.html
- Synaptica: http://www.synaptica.com/
- a.k.a. Library: http://www.a-k-a.co/index.php/aka-library/