Information Retrieval
Dieser Artikel ist noch "in Arbeit", bitte nicht verändern!
Inhaltsverzeichnis
Definition
Mit Information Retrieval bezeichnet man Methoden und Verfahren, die der Aufbereitung und Speicherung von 'verdatetem' Wissen und der Gewinnung von Informationen dienen. (Luckhardt 2001)
Im Gegensatz zum Begriff "Inforamtion Retrieval" beinhaltet die genannte Definition neben dem Wiederfinden auch die Aufbereitung und Speicherung von Wissen.
Probleme
Der folgende Abschnitt befasst sich mit allgemeinen Problemen die beim Information Retrieval auftreten.
Charakteristika des Gebietes
- Vage Anfragen
- Die von den Nutzern formulierten Anfragen sind oft sehr ungenau formuliert, nicht unbedingt aus Unerfahrenheit oder Unwissenheit sondern weil er noch gar keine klare VOrstellung von der Antwort hat nach der er eigentlich sucht.
- Unsicheres Wissen
- Dem Retrieval System fehlen in der Regel Kenntnisse über den Inhalt der Dokumente. Dies führt zu fehlerhaften und fehlenden Antworten. Besondere Probleme bei Texten bereiten z. B. Homonyme (Worte, die gleich geschrieben werden; z. B. Bank - Geldinstitut, Sitzgelegenheit) und Synonyme (Bank und Geldinstitut).
Probleme bei der Suche nach Information
- Die nahezu unüberschaubare Größe des Web und seine Dynamik, es werden permanent Änderungen vorgenommen, die keiner zentralen Verwaltung unterliegen.
- Die Heterogenität der Dokumente im WWW bietet einerseits eine große Vielfalt, erschwert aber auch die Auswahl. Außerdem gibt es keinerlei Qualitätskontrolle ob ein Text von einem Laien oder einem Wissenschaftler verfasst wurde, muss man selbst herausfinden.
- Die weltweite Verteilung schafft vor allem Sprachbarrieren und Übersetzungsprobleme aber auch kulturelle Unterschiede spielen eine Rolle.
- Die fehlende Organisation und Struktur des WWW erschwert die Suche, zwar gibt es zahlreiche Suchmaschinen, die die Nutzer bei ihrer Suche unterstützen, dennoch gibt es zahlreiche "unentdeckte" Gegenden im WWW. Unterstützt wird dies noch durch die Hypertext struktur, die keinen klaren Weg druch das WWW vorgibt.
- Da es neben öffentlichen und gemeinnützigen auch kommerzielle Anbieter im Internet gibt, kommt es zu einer großen Konkurrenz, der Nutzer muss genau prüfen, wer der Anbieter/Verfasser der benutzen Dokumente und ob er tatsächlich objektiv ist.
- Unter dem Stichwort deep oder invisible Web versteht man die vielen Teile des Internets, die unentdeckt bleiben und nicht mal von Suchmaschinen gefunden werden, obwohl sie nützliche Informationen enthalten könnten. Suchdienste gewinnen ihre Daten in der Regel durch maschinelle Indexierung und sind somit auf textuelle Informationen angewiesen. Das Internet hat sich jedoch zunehmend zu einem multimedialen Informationssystem entwickelt, werden Multimedia-Elemente oder Dateien, die nicht im HTML oder txt-Format vorliegen, nicht mit textuellen Erläuterungen versehen, bleiben sie für die Suchdienste unauffindbar.
- Der Versuch eines Autors seine Seite im Ranking einer Suchmaschine besser zu platzieren heißt Spamming. Dies kann man zum Beispiel durch eine Mehrfachnennung von Schlüsselbegriffen in Bereichen des Dokuments bewerkstelligen, welche für den Benutzer unsichtbar bleiben (z.B. in Kommentarzeilen des Quelltextes), bzw. durch "Verstecken" von Begriffen im lesbaren Teil einer Webseite (z.B. durch Wahl eines Schriftgrads, der so klein ist, dass das menschliche Auge ihn nicht wahrnehmen kann).
Struktur eines IR-Systems
Grafik
Vier Schritte einer Recherche
- Präzision der Suchanfrage
- Auswahl der Datenbank
- Suchworte wählen und Anfrage eingeben
- Suchergebnis aufarbeiten
Im ersten Schritt überlegt sich der Nutzer genau, welche Art von Informationen er sucht, d.h. er fragt sich, ob er Texte oder Bilder, Daten oder Referenzen für die Lösung eines sich ihm stellendes Problems benötigt. Diese Präzisierung beeinflusst dann auch die Auswahl der Datenbenk, welches üblicherweise der zweite Schritt bei einer Recherche ist. Als Hilfe bei der Auswahl kann die schon angesprochene Datenbank der Datenbanken dienen.
Im folgenden Schritt, also nachdem die geeignete Datenbank gefunden ist, geht es darum, eine möglichst genaue Suchanfrage zu formulieren um ein bestmöglichen Ergebnis zu erlangen. Welche Möglicheiten dem Nutzer genau zur Verfügung stehen wurde bereits hier ausfûhrlich behandelt.
Die Aufarbeitung des Suchergebnisses, die Analyse der von der Datenbank oder der Suchmaschine gelieferten Resultate, markiert den letzten Schritt einer Recherche. Zwei Szenarien sind denkbar: die erste Suche liefert ein zufriedenstellendes Ergebnis und Nutzer kann die Recherche beenden. Es kann aber auch sein, dass die Resultate nicht den Erwartungen entsprechen. In diesem Fall muss der Nutzer eine neue Suchanfrage stellen und beispielsweise andere Deskriptoren oder eine andere Suchmaschine verwenden.
Speicherung von Daten
Man unterscheidet zwei Gruppen von Personen, die an einem Information Retrieval System beteiligt sind: die, die Informationen zur Verfügung stellen, also Anbieter von Datenbanken oder Wissenschaftler und die, die eine Aufgabe lösen wollen und dafür Informationen benötigen.
Als Anbieter einer Datenbank stehen einem verschiedene Möglichkeiten zur Verfügung, je nachdem um was für eine Art Dokument es sich handelt, entscheidet der Anbieter sich für eine andere Art Datenbank.
Verschiedene Arten von Datenbanken
Zunächst ist eine Unterscheidung nach Text-, Faten- oder Bilddatenbanken sinnvoll. Textdatenbanken enthalten Dokumente der geschriebenen Sprache, Faktendatenbanken gruppieren Daten und in Bilddatenbanken findet man Bildmaterialien aller Art.
Im Bereich Textdatenbanken schließlich können Daten in Referanz- oder in Volltextdatenbanken gespeichert werden. Letztere enthalten vollständige Texte und der Nutzer kann sich den ganzen Text anschauen. Referenzdatenbanken hingegen enthalten lediglich Hinweise auf Orginaltexte. Beispiele für diese Art Datenbanken sind bibliographische Datenbanken (sie enthalten Literaturhinweise), Firmendatenbanken (Beschäftigungszahlen oder der Umsatz einer Firma in einem bestimmten Zeitraum) oder Expertendatenbanken (Recherche nach Fachleuten in bestimmten Bereichen).
In Volltextdatenbanken hingegen sind ganze Texte gespeichert, manchmal auch mit Bildern.
Statistische und juristische Datenbanken sind Beispiele für die oben genannte dritte Kategorie von Textdatenbanken, die Faktendatenbanken. Diese sammeln vor allem Zahlen und Statistiken.
Eine Datenbank der Datenbanken, z.B. die "Gale Directory of Databases" kann bei der Auswahl der richtigen Datenbank sehr hilfreich sein.
Aufbereitung von Information
Damit Nutzer Texte in Datenbanken wiederfinden können, müssen diese zunächst aufbereitet werden, d.h. man ordnet den Texten so genannte Deskriptoren (Begriffe die den Inhalt des Texts beschreiben) zu und ordnet sie in so genannten Klassifikationen.
Information Retrieval Modelle
Vorbemerkungen
Bei der inhaltsorientierten Suche unterscheidet man zunächst drei Abstraktionsebenen:
- Syntax: Das Dokument wird lediglich als Folge von Symbolen betrachtet.
- Semantik: Bedeutung und Inhalt des Dokuments werden untersucht.
- Pragmatik: Die Nutzung des Dokumentes erfolgt nur für einen bestimmten Zweck, das Oberthema muss bei allen gefundenen Dokumenten gleich sein, der genaue Inhalt kann aber variieren.
Allgemein unterscheidet man Exact-Match-Paradigma und Partial-Match-Paradigma. Ersteres Paradigma liefert nur 100%ige Treffer während die partial-Methode eine Sortierung von relevant bis weniger relevant vornimmt.
Apekte eines Information Retrieval Modells
Information Retrival Modelle müssen folgende Aspekte abdecken:
- Die Repräsentation der in der Datenbank enthaltenen Dokumente.
- Die Repräsentation der vom Nutzer formulierten Anfragen.
- Die Verknüpfung der beiden erstgenannten Punkt in Form eines für den Nutzer zufriedenstellendes Ergebnisses.
Des weiteren unterscheidet man Exact-Match- und Partial-Match-Paradigmen.
Verschiedene Retrieval-Modelle
Im folgenden Kapitel wird auf verschiedene Retrieval-Modelle eingegangen, dabei geht es vor allem und ein generelles Verständnis des jeweiligen Modells und detaillierte Beschreibungen. Der Schwerpunkt liegt auf den mengentheoretische Modellen, da sie zu den meist verbreiteten gehören.
Mengentheoretische Modelle
Bool’sche Logik
Die Bool'sche Logik geht auf eine Theorie des englischen Mathematikers und Logikers George Boole (1815-64) zurück. Bei ihr handelt es sich um eine mächtige Retrievalsprache, die es ermöglicht, beliebige Mengen aus einer Dokumentenkollektion zu selektieren und miteinander zu verknüpfen. Dies geschieht mit so genannten Operatoren, die wichtigsten sind:
- and: Wenn man nach „Universität AND Saarland“ sucht, findet man alle Dokumente in denen beide Begrifft vorkommen, also die Schnittmenge.
- or: „Universität OR Saarland“ sucht nach Dokumenten, die mindestens einen der beiden Begriffe beinhalten. Mathematisch gesehen handelt es sich dabei um die Vereinigungsmenge.
- and not: „Universität AND NOT Saarland“ findet alle Dokumente, in denen der Begriff „Universität“, nicht aber der Begriff „Saarland“ vorkommt. Mathematisch betrachtet ist dies die Differenzmenge.
- near: „Universität NEAR Saarland“ findet alle Dokumente, in denen die Begriffe „Universität“ und „Saarland“ in unmittelbarer Nähe zueinander vorkommen. Wie groß der Abstand zwischen den beiden Begriffen sein darf, hängt vom jeweiligen Suchdienst ab. In der Regel umfasst die Distanz etwa zehn bis fünzig Worte. Die Reihenfolge der Begriffe spielt dabei keine Rolle.
- Die Ausdrücke die mehrere Suchoperatoren enthalten, können je nach Suchdienst unterschiedlich interpretiert werden. Es empfiehlt sich die Verwendung von Klammern.
- Ein Beispiel: Der Ausdruck "Universität AND Saarland OR Informationswissenschaft" kann je nach Abarbeitungsreihenfolge als "(Universität AND Saarland) OR Informationswissenschaft" oder aber als "Universität AND (Saarland OR Informationswissenschaft)" verstanden werden. Setzt man als Nutzer bei der Suchanfrage Klammern, lassen sich Missverständnisse vermeiden. Klammern ermöglichen es ebenfalls, bereits selektierte Mengen noch einmal zu Teilgruppen zusammenzufassen; die Stärke der Bool'schen Operatoren wird auf diese Weise erst richtig ausgenutzt.
Zusätzlich zu den oben genannten Operatoren gibt es weitere Suchoperatoren, um die Suchanfrage zu erweitern oder einzuschränken.
Vor- und Nachteile der Bool'schen Logik
Die Vorteile der Bool'schen Logik beziehen sich vor allem auf die unkomplizierte Infrastruktur und die das leichte Implementieren der Operatoren.
Ein großer Nachteil hingegen ist, dass die Ergebnisse nicht gerankt sind, also in beliebiger Reihenfolge erscheinen und es ganz allein am Nutzer liegt das Ergebnis auszuwerten. Außerdem ist dsa Foröulieren der Anfrage sehr aufwendig und man kann nicht voraussehen wie groß das Resultat der Recherche sein wird. Schließlich ist es auch nicht möglich das unterschiedliche Gewicht der Terme innerhalb des Dokumentes zu berücksichtigenm, es kann beispielsweise wichtig sein, ob ein Begriff in der Überschrift oder im Textcorpus vorkommt.
Vektorraum-basierte Modelle
In diesem Abschnitt wird kurz auf die Vektorraum-basierten Modelle eingegangen. Sie zeichnen sich durch eine hohe Retrievalqualität aus, fast alle Suchmaschinen im Web nutzen diese Modelle.
Besonders erwähnenswert ist die Relevanzrückkupplung, der Nutzer ist dazu afgefordert zwischendurch das Ergebnis der Recherche zu beruteilen damit das System daraus dann eine modifizierte Fragestellung entwickeln kann.
Dadurch wird die Retrievalqualität noch höher. Umfragen haben jedoch ergeben, dass viele Nutzer gar ich bereit sind, während der Rechercher Relevanzurteile abzugeben.