Information Retrieval: Unterschied zwischen den Versionen

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Zur Navigation springen Zur Suche springen
 
(44 dazwischenliegende Versionen von 5 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
'''''Dieser Artikel ist noch "in Arbeit", bitte nicht verändern! '''''
+
[[definition::''Mit Information Retrieval bezeichnet man Methoden und Verfahren, die der Aufbereitung und Speicherung von 'verdatetem' Wissen und der Gewinnung von Informationen dienen'']]. (Luckhardt 2001)
  
=Definition=
+
Im Gegensatz zu der Bezeichnung "Information Retrieval" beinhaltet die genannte Definition neben dem Wiederfinden auch die Aufbereitung und Speicherung von Wissen.
''Mit Information Retrieval bezeichnet man Methoden und Verfahren, die der Aufbereitung und Speicherung von 'verdatetem' Wissen und der Gewinnung von Informationen dienen''. (Luckhardt 2001)
 
 
 
Im Gegensatz zum Begriff "Inforamtion Retrieval" beinhaltet die genannte Definition neben dem Wiederfinden auch die Aufbereitung und Speicherung von Wissen.
 
  
 
=Probleme=
 
=Probleme=
Der folgende Abschnitt befasst sich mit allgemeinen Problemen die beim Information Retrieval auftreten.
+
Der folgende Abschnitt befasst sich mit allgemeinen Problemen, die beim Information Retrieval auftreten.
  
 
==Charakteristika des Gebietes==
 
==Charakteristika des Gebietes==
 
* Vage Anfragen
 
* Vage Anfragen
:Die von den Nutzern formulierten Anfragen sind oft sehr ungenau formuliert, nicht unbedingt aus Unerfahrenheit oder Unwissenheit sondern, weil sie noch gar keine klare VOrstellung von der Antwort haben, nach der sie eigentlich suchen.
+
:Die von den Nutzern formulierten Anfragen sind oft sehr ungenau formuliert, nicht unbedingt aus Unerfahrenheit oder Unwissenheit, sondern weil sie noch gar keine klare Vorstellung von der Antwort haben, nach der sie eigentlich suchen.
  
 
* Unsicheres Wissen
 
* Unsicheres Wissen
Zeile 20: Zeile 17:
 
*Die nahezu unüberschaubare '''Größe''' des Web und seine '''Dynamik''' führen immer wieder zu Problemen für den Nutzer; es werden permanent Änderungen vorgenommen, die keiner zentralen Verwaltung unterliegen.
 
*Die nahezu unüberschaubare '''Größe''' des Web und seine '''Dynamik''' führen immer wieder zu Problemen für den Nutzer; es werden permanent Änderungen vorgenommen, die keiner zentralen Verwaltung unterliegen.
  
*Die '''Heterogenität''' der Dokumente im WWW bietet einerseits eine große Vielfalt, erschwert aber auch die Auswahl. Außerdem gibt es keinerlei Qualitätskontrolle; ob ein Text von einem Laien oder einem Wissenschaftler verfasst wurde, muss man selbst herausfinden.
+
*Die '''Heterogenität''' der Dokumente im WWW bietet einerseits eine große Vielfalt, erschwert aber andererseits auch die Auswahl. Außerdem gibt es keinerlei Qualitätskontrolle; ob ein Text von einem Laien oder einem Wissenschaftler verfasst wurde, muss man selbst herausfinden.
  
*Die '''weltweite Verteilung''' schafft vor allem Sprachbarrieren und Übersetzungsprobleme, aber auch kulturelle Unterschiede spielen eine Rolle.
+
*Die '''weltweite Verteilung''' sorgt vor allem für Sprachbarrieren und Übersetzungsprobleme, aber auch kulturelle Unterschiede spielen eine Rolle.
  
*Die '''fehlende Organisation und Struktur''' des WWW erschwert die Suche. Zwar gibt es zahlreiche Suchmaschinen, die die Nutzer bei ihrer Suche unterstützen, dennoch bleiben zahlreiche "unentdeckte" Gegenden im WWW. Unterstützt wird dies noch durch die [[Hypertext]] struktur, die keinen klaren Weg druch  das WWW vorgibt.
+
*Die '''fehlende Organisation und Struktur''' des WWW erschwert die Suche. Zwar gibt es zahlreiche Suchmaschinen, die die Nutzer bei ihrer Suche unterstützen, dennoch bleiben zahlreiche Gegenden im WWW "unentdeckt". Verstärkt wird dies noch durch die [[Hypertext]]struktur, die keinen klaren Weg druch  das WWW vorgibt.
  
*Da es neben öffentlichen und gemeinnützigen auch kommerzielle Anbieter im Internet gibt, kommt es zu einer großen '''Konkurrenz''', der Nutzer muss genau prüfen, wer der Anbieter/Verfasser der verwendeten Dokumente ist und ob er tatsächlich objektiv ist.
+
*Da es neben öffentlichen und gemeinnützigen auch kommerzielle Anbieter im Internet gibt, kommt es zu einer großen '''Konkurrenz'''. Der Nutzer muss genau prüfen, wer der Anbieter/Verfasser der verwendeten Dokumente ist und ob er tatsächlich objektiv ist.
  
*Unter dem Stichwort '''deep''' oder '''invisible Web''' versteht man die vielen Teile des Internets, die unentdeckt bleiben und nicht mal von Suchmaschinen gefunden werden, obwohl sie nützliche Informationen enthalten könnten. Suchdienste gewinnen ihre Daten in der Regel durch maschinelle Indexierung und sind somit auf textuelle Informationen angewiesen. Das Internet hat sich jedoch zunehmend zu einem multimedialen Informationssystem entwickelt, werden Multimedia-Elemente oder Dateien, die nicht im HTML oder txt-Format vorliegen, nicht mit textuellen Erläuterungen versehen, bleiben sie für die Suchdienste unauffindbar.
+
*Unter dem Stichwort '''deep''' oder '''invisible Web''' versteht man die vielen Teile des Internets, die unentdeckt bleiben und nicht einmal von Suchmaschinen gefunden werden, obwohl sie nützliche Informationen enthalten könnten. Suchdienste gewinnen ihre Daten in der Regel durch maschinelle Indexierung und sind somit auf textuelle Informationen angewiesen. Das Internet hat sich jedoch zunehmend zu einem multimedialen Informationssystem entwickelt, daher bleiben Multimedia-Elemente oder Dateien, die nicht im HTML oder txt-Format vorliegen, wenn sie nicht mit textuellen Erläuterungen versehen werden, für die Suchdienste unauffindbar.
  
*Der Versuch eines Autors seine Seite im Ranking einer Suchmaschine besser zu platzieren heißt '''Spamming'''. Dies kann man zum Beispiel durch eine Mehrfachnennung von Schlüsselbegriffen in Bereichen des Dokuments bewerkstelligen, welche für den Benutzer unsichtbar bleiben (z.B. in Kommentarzeilen des Quelltextes), bzw. durch "Verstecken" von Begriffen im lesbaren Teil einer Webseite (z.B. durch Wahl eines Schriftgrads, der so klein ist, dass das menschliche Auge ihn nicht wahrnehmen kann).
+
*Der Versuch eines Autors seine Seite im Ranking einer Suchmaschine besser zu platzieren heißt '''Spamming'''. Dies kann man zum Beispiel durch eine Mehrfachnennung von Schlüsselbegriffen in Bereichen des Dokuments, welche für den Benutzer unsichtbar bleiben (z.B. in Kommentarzeilen des Quelltextes) bewerkstelligen, bzw. durch "Verstecken" von Begriffen im lesbaren Teil einer Webseite (z.B. durch Wahl eines Schriftgrads, der so klein ist, dass das menschliche Auge ihn nicht wahrnehmen kann).
  
 
=Struktur eines IR-Systems=
 
=Struktur eines IR-Systems=
Zeile 36: Zeile 33:
 
[[Bild:Struktur des IR.png]]
 
[[Bild:Struktur des IR.png]]
  
Wie die Grafik zeigt, ist ein solches IR-System recht einfach aufgebaut. Auf der einen Seite sehen wir die Anfragen der Nutzer und deren entsprechende Repräsentation, gegebüber die in der Datenbank enthaltenen Dokumente und ebenalls ihre entsprechende Repräsentation.
+
Wie die Grafik zeigt, ist ein solches IR-System recht einfach aufgebaut. Auf der einen Seite stehen die Anfragen der Nutzer und deren entsprechende Repräsentation. Ihnen gegenüber befinden sich die in der Datenbank enthaltenen Dokumente und ihre entsprechende Repräsentation.
  
 
Im nächsten Schritt (Matching) versucht das System Übereinstimmungen zwischen beiden Seiten zu finden und zeigt schließlich das Ergebnis an. Die verschiedenen technischen Möglichkeiten des Matching werden im Kapitel zu den [[Information Retrieval#Verschiedene Retrieval-Modelle|verschiedenen Retrieval-Modellen]] beschrieben.
 
Im nächsten Schritt (Matching) versucht das System Übereinstimmungen zwischen beiden Seiten zu finden und zeigt schließlich das Ergebnis an. Die verschiedenen technischen Möglichkeiten des Matching werden im Kapitel zu den [[Information Retrieval#Verschiedene Retrieval-Modelle|verschiedenen Retrieval-Modellen]] beschrieben.
  
Sehr wichtig ist schließlich die Rückkopplung: der Nutzer vergleicht das ihm gelieferte Ergebnis mit seiner Anfrage und den damit verbundenen Erwartungen. Werden diese erfüllt, ist die Recherche beendet und der Nutzer hat ein für ihn zufriedenstellendes Ergebnis. Ist das Gegenteil der Fall, wird er eine neue Suche, möglicherweise mit anderen Suchtermen oder in einer anderen Datenabank/Suchmaschine, beginnen.  
+
Sehr wichtig ist schließlich die Rückkopplung: der Nutzer vergleicht das ihm gelieferte Ergebnis mit seiner Anfrage und den damit verbundenen Erwartungen. Werden diese erfüllt, ist die Recherche beendet und der Nutzer hat ein für ihn zufriedenstellendes Ergebnis erhalten. Ist das Gegenteil der Fall wird er eine neue Suche, möglicherweise mit anderen Suchtermen oder in einer anderen Datenbank/Suchmaschine, beginnen.  
  
 +
==Aspekte eines Information Retrieval Modells==
 +
Information Retrieval Modelle müssen also folglich drei Aspekte abdecken:
 +
* Die Repräsentation der in der Datenbank enthaltenen Dokumente.
 +
* Die Repräsentation der vom Nutzer formulierten Anfragen.
 +
* Die Verknüpfung der beiden erstgenannten Punkte in Form eines für den Nutzer zufrieden stellendes Ergebnisses.
  
 
==Vier Schritte einer Recherche==
 
==Vier Schritte einer Recherche==
Zeile 50: Zeile 52:
 
*Suchergebnis aufarbeiten
 
*Suchergebnis aufarbeiten
  
Im ersten Schritt überlegt sich der Nutzer genau, welche Art von Informationen er sucht, d.h. er fragt sich, ob er Texte oder Bilder, Daten oder Referenzen für die Lösung eines sich ihm stellendes Problems benötigt.
+
Im ersten Schritt überlegt sich der Nutzer genau, welche Art von Informationen er sucht, d.h. er fragt sich, ob er Texte oder Bilder, Daten oder Referenzen für die Lösung eines sich ihm stellenden Problems benötigt.
Diese Präzisierung beeinflusst dann auch die Auswahl der Datenbenk, welches üblicherweise der zweite Schritt bei einer Recherche ist. Als Hilfe bei der Auswahl kann die schon angesprochene Datenbank der Datenbanken dienen.
+
Diese Präzisierung beeinflusst dann auch die Auswahl der Datenbank, was üblicherweise den zweiten Schritt einer Recherche darstellt.
  
Im folgenden Schritt, also nachdem die geeignete Datenbank gefunden ist, geht es darum, eine möglichst genaue Suchanfrage zu formulieren um ein bestmöglichen Ergebnis zu erzielen. Welche Möglicheiten dem Nutzer genau zur Verfügung stehen werden im Artikel [[Suchoperatoren|Suchoperatoren]] ausführlich behandelt.
+
Im folgenden Schritt, nachdem die geeignete Datenbank gefunden wurde, geht es darum, eine möglichst genaue Suchanfrage zu formulieren um ein bestmögliches Ergebnis zu erzielen. Welche Möglichkeiten dem Nutzer genau zur Verfügung stehen wird im Artikel [[Suchoperatoren|Suchoperatoren]] ausführlich behandelt.
  
Die Aufarbeitung des Suchergebnisses, die Analyse der von der Datenbank oder der Suchmaschine gelieferten Resultate, markiert den letzten Schritt einer Recherche. Zwei Szenarien sind denkbar: die erste Suche liefert ein zufriedenstellendes Ergebnis und der Nutzer kann die Recherche beenden. Es kann aber auch sein, dass die Resultate nicht den Erwartungen entsprechen. In diesem Fall muss der Nutzer eine neue Suchanfrage stellen und beispielsweise andere [[Deskriptoren]] oder eine andere Suchmaschine verwenden.
+
Die Aufarbeitung des Suchergebnisses, die Analyse der von der Datenbank oder der Suchmaschine gelieferten Resultate, stellt den letzten Schritt einer Recherche dar. Zwei Szenarien sind denkbar: entweder die erste Suche liefert ein zufrieden stellendes Ergebnis und der Nutzer kann die Recherche beenden. Oder die Resultate entsprechen nicht den Erwartungen. In diesem zweiten Fall muss der Nutzer eine neue Suchanfrage stellen und beispielsweise andere [[Deskriptoren]] oder eine andere Suchmaschine verwenden.
  
 
=Speicherung von Daten=
 
=Speicherung von Daten=
  
Man unterscheidet zwei Gruppen von Personen, die an einem Information Retrieval System beteiligt sind: die, die Informationen zur Verfügung stellen, also Anbieter von Datenbanken oder Wissenschaftler und die, die eine Aufgabe lösen wollen und dafür Informationen benötigen.
+
Man unterscheidet zwei Gruppen von Personen, die an einem Information Retrieval System beteiligt sind: die, die Informationen zur Verfügung stellen, also Anbieter von Datenbanken oder Wissenschaftler, und die, die eine Aufgabe lösen wollen und dafür Informationen benötigen.
  
Es stehen eine große Vielzahl von Datenbanken zur Verfügung, je nach Art der angebotenen Dokumente, entscheidet sich der Anbieter für eine Datenbank und die Art der gesuchten Dokumente beeinflusst selbstverständlich auch die Wahl des suchenden Nutzers.
+
Es steht eine große Anzahl von Datenbanken zur Verfügung, je nach Art der angebotenen Dokumente entscheidet sich der Anbieter für die Datenbank, in die er seine Informationen einbetten möchte, und die Art der gesuchten Dokumente beeinflusst selbstverständlich auch die Wahl des suchenden Nutzers.
  
 
==Verschiedene Arten von Datenbanken==
 
==Verschiedene Arten von Datenbanken==
  
Zunächst ist eine Unterscheidung nach Text-, Faten- oder Bilddatenbanken sinnvoll. Textdatenbanken enthalten Dokumente der geschriebenen Sprache, Faktendatenbanken gruppieren Daten und in Bilddatenbanken findet man Bildmaterialien aller Art.
+
Zunächst ist eine Unterscheidung nach Text-, Fakten- oder Bilddatenbanken sinnvoll. Textdatenbanken enthalten Dokumente der geschriebenen Sprache, Faktendatenbanken gruppieren Daten und in Bilddatenbanken findet man Bildmaterialien aller Art.
  
Im Bereich Textdatenbanken schließlich können Daten in Referanz- oder in Volltextdatenbanken gespeichert werden. Letztere enthalten vollständige Texte und der Nutzer kann sich den ganzen Text anschauen. Referenzdatenbanken hingegen enthalten lediglich Hinweise auf Orginaltexte. Beispiele für diese Art Datenbanken sind bibliographische Datenbanken (sie enthalten Literaturhinweise), Firmendatenbanken (Beschäftigungszahlen oder der Umsatz einer Firma in einem bestimmten Zeitraum) oder Expertendatenbanken (Recherche nach Fachleuten in bestimmten Bereichen).
+
Im Bereich Textdatenbanken können Daten in Referenz- oder in Volltextdatenbanken gespeichert werden. Letztere enthalten vollständige Texte und der Nutzer kann sich den ganzen Text anschauen. Referenzdatenbanken hingegen enthalten lediglich Hinweise auf Orginaltexte. Beispiele für diese Art Datenbanken sind bibliographische Datenbanken (sie enthalten Literaturhinweise), Firmendatenbanken (Beschäftigungszahlen oder der Umsatz einer Firma in einem bestimmten Zeitraum) oder Expertendatenbanken (Recherche nach Fachleuten in bestimmten Bereichen).
  
In Volltextdatenbanken hingegen sind ganze Texte gespeichert, manchmal auch mit Bildern.
+
In Volltextdatenbanken hingegen sind ganze Texte gespeichert, evtl. auch mit Bildern.
  
 
Statistische und juristische Datenbanken sind Beispiele für die oben genannte dritte Kategorie von Textdatenbanken, die Faktendatenbanken. Diese sammeln vor allem Zahlen und Statistiken.
 
Statistische und juristische Datenbanken sind Beispiele für die oben genannte dritte Kategorie von Textdatenbanken, die Faktendatenbanken. Diese sammeln vor allem Zahlen und Statistiken.
Zeile 76: Zeile 78:
  
 
=Aufbereitung von Information=
 
=Aufbereitung von Information=
Damit Nutzer Texte in Datenbanken wiederfinden können, müssen diese zunächst aufbereitet werden, d.h. man ordnet den Texten so genannte [[Deskriptoren]], also Begriffe die den Inhalt des Texts genauer beschreiben, zu und ordnet sie in so genannten [[Klassifikationen]].
+
Damit Nutzer Texte in Datenbanken wiederfinden können, müssen diese zunächst aufbereitet werden, d.h. man ordnet den Texten durch [[Indexierung]] so genannte [[Deskriptoren]], also Begriffe, die den Inhalt des Texts genauer beschreiben, zu und ordnet diese in so genannten [[Klassifikationen]] oder [[Thesaurus|Thesauri]].
  
 
=Information Retrieval Modelle=
 
=Information Retrieval Modelle=
 +
 
==Vorbemerkungen==
 
==Vorbemerkungen==
 +
 
Bei der inhaltsorientierten Suche unterscheidet man zunächst drei Abstraktionsebenen:
 
Bei der inhaltsorientierten Suche unterscheidet man zunächst drei Abstraktionsebenen:
 
*[[Syntax]]: Das Dokument wird lediglich als Folge von Symbolen betrachtet.
 
*[[Syntax]]: Das Dokument wird lediglich als Folge von Symbolen betrachtet.
Zeile 87: Zeile 91:
 
Allgemein unterscheidet man Exact-Match-Paradigma und Partial-Match-Paradigma. Ersteres Paradigma liefert nur 100%ige Treffer während die partial-Methode eine Sortierung von relevant bis weniger relevant vornimmt.
 
Allgemein unterscheidet man Exact-Match-Paradigma und Partial-Match-Paradigma. Ersteres Paradigma liefert nur 100%ige Treffer während die partial-Methode eine Sortierung von relevant bis weniger relevant vornimmt.
  
 +
==Verschiedene Retrieval-Modelle==
 +
Im folgenden Kapitel wird auf verschiedene Retrieval-Modelle eingegangen, dabei geht es vor allem um ein generelles Verständnis des jeweiligen Modells. Der Schwerpunkt liegt auf dem mengentheoretischen Modell, da es zu den am weitesten verbreiteten gehören.
  
 +
==Mengentheoretische Modelle==
  
==Verschiedene Retrieval-Modelle==
+
===Boole’sche Logik===  
Im folgenden Kapitel wird auf verschiedene Retrieval-Modelle eingegangen, dabei geht es vor allem und ein generelles Verständnis des jeweiligen Modells und detaillierte Beschreibungen. Der Schwerpunkt liegt auf den mengentheoretische Modellen, da sie zu den meist verbreiteten gehören.
 
 
 
==Mengentheoretische Modelle==
 
===Bool’sche Logik===
 
  
Die Bool'sche Logik geht auf eine Theorie des englischen Mathematikers und Logikers George Boole (1815-64) zurück. Bei ihr handelt es sich um eine mächtige Retrievalsprache, die es ermöglicht, beliebige Mengen aus einer Dokumentenkollektion zu selektieren und miteinander zu verknüpfen.
+
Die Boole'sche Logik geht auf eine Theorie des englischen Mathematikers und Logikers George Boole (1815-64) zurück. Bei ihr handelt es sich um eine mächtige Retrievalsprache, die es ermöglicht, beliebige Mengen aus einer Dokumentenkollektion zu selektieren und miteinander zu verknüpfen.
 
Dies geschieht mit so genannten [[Suchoperatoren]].
 
Dies geschieht mit so genannten [[Suchoperatoren]].
  
===Vor- und Nachteile der Bool'schen Logik===
+
===Vor- und Nachteile der Boole'schen Logik===
Die Vorteile der Bool'schen Logik beziehen sich vor allem auf die unkomplizierte Infrastruktur und die das leichte Implementieren der Operatoren.
+
Die Vorteile der Boole'schen Logik liegen vor allem in der unkomplizierten Infrastruktur und im einfachen Implementieren der Operatoren.
  
Ein großer Nachteil hingegen ist, dass die Ergebnisse nicht gerankt sind, also in beliebiger Reihenfolge erscheinen und es ganz allein am Nutzer liegt das Ergebnis auszuwerten. Außerdem ist dsa Foröulieren der Anfrage sehr aufwendig und man kann nicht voraussehen wie groß das Resultat der Recherche sein wird. Schließlich ist es auch nicht möglich das unterschiedliche Gewicht der Terme innerhalb des Dokumentes zu berücksichtigen, es kann beispielsweise wichtig sein, ob ein Begriff in der Überschrift oder im Textcorpus vorkommt.
+
Ein großer Nachteil hingegen ist, dass die Ergebnisse nicht gerankt sind, also in beliebiger Reihenfolge erscheinen und es ganz allein am Nutzer liegt das Ergebnis auszuwerten. Außerdem ist das Formulieren der Anfrage sehr aufwendig und man kann nicht voraussehen, wie umfangreich das Resultat der Recherche sein wird. Es auch unmöglich, das unterschiedliche Gewicht der Terme innerhalb des Dokumentes zu berücksichtigen, es kann beispielsweise wichtig sein, ob ein Begriff in der Überschrift oder im Textcorpus vorkommt.
  
 
==Vektorraum-basierte Modelle==
 
==Vektorraum-basierte Modelle==
Zeile 107: Zeile 110:
 
In diesem Abschnitt wird kurz auf die Vektorraum-basierten Modelle eingegangen. Sie zeichnen sich durch eine hohe Retrievalqualität aus, fast alle Suchmaschinen im Web nutzen diese Modelle.
 
In diesem Abschnitt wird kurz auf die Vektorraum-basierten Modelle eingegangen. Sie zeichnen sich durch eine hohe Retrievalqualität aus, fast alle Suchmaschinen im Web nutzen diese Modelle.
  
Besonders erwähnenswert ist die Relevanzrückkopplung, der Nutzer ist dazu aufgefordert zwischendurch das Ergebnis der Recherche zu beruteilen, damit das System vom Urteil des Nutzers ausgehend eine modifizierte Fragestellung entwickeln kann.
+
Besonders erwähnenswert ist die Relevanzrückkopplung, der Nutzer ist dazu aufgefordert zwischendurch das Ergebnis der Recherche zu beurteilen, damit das System vom Urteil des Nutzers ausgehend eine modifizierte Fragestellung entwickeln kann.
  
 
Dadurch wird die Retrievalqualität noch höher. Umfragen haben jedoch ergeben, dass viele Nutzer gar ich bereit sind, während der Recherche Relevanzurteile abzugeben.
 
Dadurch wird die Retrievalqualität noch höher. Umfragen haben jedoch ergeben, dass viele Nutzer gar ich bereit sind, während der Recherche Relevanzurteile abzugeben.
Zeile 117: Zeile 120:
 
Das nun folgende Modell hingegen schätzt die Wahrscheinlichkeit, dass ein Dokument auf eine Anfrage als relevant betrachtet wird. Im Ergebnis werden die Dokumente nach dieser geschätzten Wahrscheinlichkeit geordnet. Genau diese Sortierung der gefundenen Dokumente ist auch der größte Vorteil des probabilistischen Retrieval-Modells.
 
Das nun folgende Modell hingegen schätzt die Wahrscheinlichkeit, dass ein Dokument auf eine Anfrage als relevant betrachtet wird. Im Ergebnis werden die Dokumente nach dieser geschätzten Wahrscheinlichkeit geordnet. Genau diese Sortierung der gefundenen Dokumente ist auch der größte Vorteil des probabilistischen Retrieval-Modells.
  
Der Prozess des Ordens nach einer wahrscheinlichen Relevanz für den Nutzer nennt man [[Ranking]].
+
Der Prozess des Ordnens nach einer wahrscheinlichen Relevanz für den Nutzer nennt man [[Ranking]].
  
 
=Bewertung von Information Retrieval Modellen=
 
=Bewertung von Information Retrieval Modellen=
Nach gelungener oder auch nicht gelungener Recherche ist es sicherlich für jeden Nutzer interessant zu erfahren, wie effizient das Retrieval-System mit der er gearbeitet hat, tatsächlich ist.
+
Nach gelungener oder auch nicht gelungener Recherche ist es sicherlich für jeden Nutzer interessant zu erfahren, wie effizient das Retrieval-System mit dem er gearbeitet hat, tatsächlich ist. Die häufigsten Qualitätsmaße, die in diesem Zusammenhang verwendet werden sind [[Recall]] und [[Precision]]. Diese Beiden Kennwerte hängen in der Regel in einem direkten Zusammenhang, in so fern, als die Verbesserung des einen Wertes in der Regel die Verschlechterung des anderen mit sich bringt. Eine Erhöhung des Recall (beispielsweise indem die Suchanfrage um Synonyme ergänzt wird) zieht in der Regel eine Erniedrigung der Precission (mehr Balast) nach sich und umgekehrt.  
  
Man unterscheidet zwei recht einfache Methoden dies herauszufinden:
+
=Quellen=
  
==Recall==
+
*Böll, Sebastian; Lapp, Martin (2005): [http://www.unifind.de/ir Homepage zum Tutorium „Information Retrieval“]
  
[[Bild:recall.png]]
+
*Ferber, Reginald (2003): Information Retrieval. http://information-retrieval.de/irb/ir.html
  
Der Recall gibt also an, wie viele der in der Datenbank vorhandenen relevanten Dokumente auch tatsächlich gefunden wurden, die Berechnung zielt also auf die '''Vollständigkeit''' der Suche ab. Nimmt der Recall den Idealwert 1 an, wurden alle relevanten Dokumente in der Datenbank gefunden.
+
*Fuhr, Nobert (2004): Theorie des Information Retrieval I: Modelle. In: Kuhlen, Rainer; Seeger, Thomas; Strauch, Dietmar (2004): Grundlagen der praktischen Information und Dokumentation. Handbuch zur Einführung in die Informationswissenschaft und -praxis. München: K. G. Saur. S. 207-214.
  
==Precesion==
+
*Kind, Joachim (2004): Praxis des Information Retrieval. In: Kuhlen, Rainer; Seeger, Thomas; Strauch, Dietmar (2004): Grundlagen der praktischen Information und Dokumentation. Handbuch zur Einführung in die Informationswissenschaft und -praxis. München: K. G. Saur. S. 389-398.
  
Die Precision gibt also an, wie viele der gefundenen Dokumente relevant sind, ermittelt also die '''Genauigkeit der Suche'''. Nimmt die Precision den Idealwert 1 an, sind alle gefundenen Dokumente relevant. Bei der Suche im WWW ist die Precision ein praktischer Wert, der exakt ermittelbar ist, wenn auch ggf. mit ehr großem Aufwand. Inwiefern die gefundenen Dokumente tatsächlich relevant sind, kann man nämlich nur durch Betrachtung des Ergebnisses feststellen.
+
*Luckhardt, Heinz-Dirk (2001): Information Retrieval. In: [http://is.uni-sb.de/studium/handbuch/exkurs_ir.php Virtuelles Handbuch der Informationswissenschaft]
  
 +
*Nohr, Holger (2004): Theorie des Information Retrieval II: Automatische Indexierung. In: Kuhlen, Rainer; Seeger, Thomas; Strauch, Dietmar (2004): Grundlagen der praktischen Information und Dokumentation. Handbuch zur Einführung in die Informationswissenschaft und -praxis. München: K. G. Saur. S. 215-225.
  
Natürlich liegt es am Nutzer selbst, ob er einen höheren Recall, also eine größere Menge gefundener Dokumente und demnach alle, die für ihn relevant sind und darüber hinaus noch weitere möglicherweise uninteressante Daten bevorzugt, oder eine höhere Präzision, d.h. nur Dokumente die auch 100%ig zu seiner Anfrage passen. Bei letzterer Präferenz besteht die Gefahr, dass einige interessante Dokumente nicht angezeigt werden.
+
*Stock, Wolfgang G. (2006): Information Retrieval. Suchen und Finden von Informationen. – München; Wien: Oldenbourg Wissenschaftsverlag. Inhaltsverzeichnis unter: http://www.phil-fak.uni-duesseldorf.de/infowiss/content/mitarbeiter/stock.php.  
  
=Quellen=
+
*Umlauf, Konrad (2010): Grundkurs Informationsaufbereitung - Vorlesungsskript. http://www.ib.hu-berlin.de/~kumlau/handreichungen/h189/  
*Bekavac, Bernhard; Griesbaum, Joachim; Kuhlen, Rainer (2002/2003): [http://www.inf-wiss.uni-konstanz.de/CURR/winter0203/IR/kursplan_ir_ws0203.html Information Retrieval. Kursmaterialien des WS 02/03], letzter Zugriff 26.09.05.
 
  
*Böll, Sebastian; Lapp, Martin (2005): [http://server02.is.uni-sb.de/courses/IR/ Homepage zum Tutorium „Information Retrieval“], letzter Zugriff 01.06.05.
+
*Wikipedia Online Thema: Information Retrieval http://de.wikipedia.org/wiki/Information_Retrieval
  
*Fuhr, Nobert (2004): Theorie des Information Retrieval I: Modelle. In: Kuhlen, Rainer; Seeger, Thomas; Strauch, Dietmar (2004): Grundlagen der praktischen Information und Dokumentation. Handbuch zur Einführung in die Informationswissenschaft und -praxis. München: K. G. Saur. S. 207-214.
+
*Womser-Hacker, Christa: Theorie des Information Retrieval III: Evaluierung. In: In: Kuhlen, Rainer; Seeger, Thomas; Strauch, Dietmar (2004): Grundlagen der praktischen Information und Dokumentation. Handbuch zur Einführung in die Informationswissenschaft und -praxis. München: K. G. Saur. S. 227-235.  
  
*Kind, Joachim (2004): Praxis des Information Retrieval. In: Kuhlen, Rainer; Seeger, Thomas; Strauch, Dietmar (2004): Grundlagen der praktischen Information und Dokumentation. Handbuch zur Einführung in die Informationswissenschaft und -praxis. München: K. G. Saur. S. 389-398.
+
(alle Links zuletzt besucht am 18.08.2010)
  
*Luckhardt, Heinz-Dirk (2001): Information Retrieval. In: [http://is.uni-sb.de/studium/handbuch/exkurs.ir.php Virtuelles Handbuch der Informationswissenschaft], letzter Zugriff 27.09.05.
+
=Verwandte Begriffe=
 
 
*Nohr, Holger (2004): Theorie des Information Retrieval II: Automatische Indexierung. In: Kuhlen, Rainer; Seeger, Thomas; Strauch, Dietmar (2004): Grundlagen der praktischen Information und Dokumentation. Handbuch zur Einführung in die Informationswissenschaft und -praxis. München: K. G. Saur. S. 215-225.
 
  
*Womser-Hacker, Christa: Theorie des Information Retrieval III: Evaluierung. In: In: Kuhlen, Rainer; Seeger, Thomas; Strauch, Dietmar (2004): Grundlagen der praktischen Information und Dokumentation. Handbuch zur Einführung in die Informationswissenschaft und -praxis. München: K. G. Saur. S. 227-235.
+
* [[broader::Fachinformation]]
 +
* [[narrower::Online-Retrieval]]
 +
* [[related::Datenbank]]
 +
* [[related::Informationserschließung]]
 +
* [[related::Dokumentationssprache]]
 +
* [[synonymous::Informationswiedergewinnung]]
 +
[[category:Information Retrieval]]

Aktuelle Version vom 18. August 2010, 09:50 Uhr

Mit Information Retrieval bezeichnet man Methoden und Verfahren, die der Aufbereitung und Speicherung von 'verdatetem' Wissen und der Gewinnung von Informationen dienen. (Luckhardt 2001)

Im Gegensatz zu der Bezeichnung "Information Retrieval" beinhaltet die genannte Definition neben dem Wiederfinden auch die Aufbereitung und Speicherung von Wissen.

Probleme

Der folgende Abschnitt befasst sich mit allgemeinen Problemen, die beim Information Retrieval auftreten.

Charakteristika des Gebietes

  • Vage Anfragen
Die von den Nutzern formulierten Anfragen sind oft sehr ungenau formuliert, nicht unbedingt aus Unerfahrenheit oder Unwissenheit, sondern weil sie noch gar keine klare Vorstellung von der Antwort haben, nach der sie eigentlich suchen.
  • Unsicheres Wissen
Dem Retrieval System fehlen in der Regel Kenntnisse über den Inhalt der Dokumente. Dies führt zu fehlerhaften und fehlenden Antworten. Besondere Probleme bei Texten bereiten z. B. Homonyme (Worte, die gleich geschrieben werden; z. B. Bank - Geldinstitut, Sitzgelegenheit) und Synonyme (Bank und Geldinstitut).

Probleme bei der Suche nach Information

  • Die nahezu unüberschaubare Größe des Web und seine Dynamik führen immer wieder zu Problemen für den Nutzer; es werden permanent Änderungen vorgenommen, die keiner zentralen Verwaltung unterliegen.
  • Die Heterogenität der Dokumente im WWW bietet einerseits eine große Vielfalt, erschwert aber andererseits auch die Auswahl. Außerdem gibt es keinerlei Qualitätskontrolle; ob ein Text von einem Laien oder einem Wissenschaftler verfasst wurde, muss man selbst herausfinden.
  • Die weltweite Verteilung sorgt vor allem für Sprachbarrieren und Übersetzungsprobleme, aber auch kulturelle Unterschiede spielen eine Rolle.
  • Die fehlende Organisation und Struktur des WWW erschwert die Suche. Zwar gibt es zahlreiche Suchmaschinen, die die Nutzer bei ihrer Suche unterstützen, dennoch bleiben zahlreiche Gegenden im WWW "unentdeckt". Verstärkt wird dies noch durch die Hypertextstruktur, die keinen klaren Weg druch das WWW vorgibt.
  • Da es neben öffentlichen und gemeinnützigen auch kommerzielle Anbieter im Internet gibt, kommt es zu einer großen Konkurrenz. Der Nutzer muss genau prüfen, wer der Anbieter/Verfasser der verwendeten Dokumente ist und ob er tatsächlich objektiv ist.
  • Unter dem Stichwort deep oder invisible Web versteht man die vielen Teile des Internets, die unentdeckt bleiben und nicht einmal von Suchmaschinen gefunden werden, obwohl sie nützliche Informationen enthalten könnten. Suchdienste gewinnen ihre Daten in der Regel durch maschinelle Indexierung und sind somit auf textuelle Informationen angewiesen. Das Internet hat sich jedoch zunehmend zu einem multimedialen Informationssystem entwickelt, daher bleiben Multimedia-Elemente oder Dateien, die nicht im HTML oder txt-Format vorliegen, wenn sie nicht mit textuellen Erläuterungen versehen werden, für die Suchdienste unauffindbar.
  • Der Versuch eines Autors seine Seite im Ranking einer Suchmaschine besser zu platzieren heißt Spamming. Dies kann man zum Beispiel durch eine Mehrfachnennung von Schlüsselbegriffen in Bereichen des Dokuments, welche für den Benutzer unsichtbar bleiben (z.B. in Kommentarzeilen des Quelltextes) bewerkstelligen, bzw. durch "Verstecken" von Begriffen im lesbaren Teil einer Webseite (z.B. durch Wahl eines Schriftgrads, der so klein ist, dass das menschliche Auge ihn nicht wahrnehmen kann).

Struktur eines IR-Systems

Struktur des IR.png

Wie die Grafik zeigt, ist ein solches IR-System recht einfach aufgebaut. Auf der einen Seite stehen die Anfragen der Nutzer und deren entsprechende Repräsentation. Ihnen gegenüber befinden sich die in der Datenbank enthaltenen Dokumente und ihre entsprechende Repräsentation.

Im nächsten Schritt (Matching) versucht das System Übereinstimmungen zwischen beiden Seiten zu finden und zeigt schließlich das Ergebnis an. Die verschiedenen technischen Möglichkeiten des Matching werden im Kapitel zu den verschiedenen Retrieval-Modellen beschrieben.

Sehr wichtig ist schließlich die Rückkopplung: der Nutzer vergleicht das ihm gelieferte Ergebnis mit seiner Anfrage und den damit verbundenen Erwartungen. Werden diese erfüllt, ist die Recherche beendet und der Nutzer hat ein für ihn zufriedenstellendes Ergebnis erhalten. Ist das Gegenteil der Fall wird er eine neue Suche, möglicherweise mit anderen Suchtermen oder in einer anderen Datenbank/Suchmaschine, beginnen.

Aspekte eines Information Retrieval Modells

Information Retrieval Modelle müssen also folglich drei Aspekte abdecken:

  • Die Repräsentation der in der Datenbank enthaltenen Dokumente.
  • Die Repräsentation der vom Nutzer formulierten Anfragen.
  • Die Verknüpfung der beiden erstgenannten Punkte in Form eines für den Nutzer zufrieden stellendes Ergebnisses.

Vier Schritte einer Recherche

Aus dieser Grafik lassen sich nach Kind vier Schritte einer Recherche ableiten:

  • Präzision der Suchanfrage
  • Auswahl der Datenbank
  • Suchworte wählen und Anfrage eingeben
  • Suchergebnis aufarbeiten

Im ersten Schritt überlegt sich der Nutzer genau, welche Art von Informationen er sucht, d.h. er fragt sich, ob er Texte oder Bilder, Daten oder Referenzen für die Lösung eines sich ihm stellenden Problems benötigt. Diese Präzisierung beeinflusst dann auch die Auswahl der Datenbank, was üblicherweise den zweiten Schritt einer Recherche darstellt.

Im folgenden Schritt, nachdem die geeignete Datenbank gefunden wurde, geht es darum, eine möglichst genaue Suchanfrage zu formulieren um ein bestmögliches Ergebnis zu erzielen. Welche Möglichkeiten dem Nutzer genau zur Verfügung stehen wird im Artikel Suchoperatoren ausführlich behandelt.

Die Aufarbeitung des Suchergebnisses, die Analyse der von der Datenbank oder der Suchmaschine gelieferten Resultate, stellt den letzten Schritt einer Recherche dar. Zwei Szenarien sind denkbar: entweder die erste Suche liefert ein zufrieden stellendes Ergebnis und der Nutzer kann die Recherche beenden. Oder die Resultate entsprechen nicht den Erwartungen. In diesem zweiten Fall muss der Nutzer eine neue Suchanfrage stellen und beispielsweise andere Deskriptoren oder eine andere Suchmaschine verwenden.

Speicherung von Daten

Man unterscheidet zwei Gruppen von Personen, die an einem Information Retrieval System beteiligt sind: die, die Informationen zur Verfügung stellen, also Anbieter von Datenbanken oder Wissenschaftler, und die, die eine Aufgabe lösen wollen und dafür Informationen benötigen.

Es steht eine große Anzahl von Datenbanken zur Verfügung, je nach Art der angebotenen Dokumente entscheidet sich der Anbieter für die Datenbank, in die er seine Informationen einbetten möchte, und die Art der gesuchten Dokumente beeinflusst selbstverständlich auch die Wahl des suchenden Nutzers.

Verschiedene Arten von Datenbanken

Zunächst ist eine Unterscheidung nach Text-, Fakten- oder Bilddatenbanken sinnvoll. Textdatenbanken enthalten Dokumente der geschriebenen Sprache, Faktendatenbanken gruppieren Daten und in Bilddatenbanken findet man Bildmaterialien aller Art.

Im Bereich Textdatenbanken können Daten in Referenz- oder in Volltextdatenbanken gespeichert werden. Letztere enthalten vollständige Texte und der Nutzer kann sich den ganzen Text anschauen. Referenzdatenbanken hingegen enthalten lediglich Hinweise auf Orginaltexte. Beispiele für diese Art Datenbanken sind bibliographische Datenbanken (sie enthalten Literaturhinweise), Firmendatenbanken (Beschäftigungszahlen oder der Umsatz einer Firma in einem bestimmten Zeitraum) oder Expertendatenbanken (Recherche nach Fachleuten in bestimmten Bereichen).

In Volltextdatenbanken hingegen sind ganze Texte gespeichert, evtl. auch mit Bildern.

Statistische und juristische Datenbanken sind Beispiele für die oben genannte dritte Kategorie von Textdatenbanken, die Faktendatenbanken. Diese sammeln vor allem Zahlen und Statistiken.

Eine Datenbank der Datenbanken, z.B. die Gale Directory of Databases kann bei der Auswahl der richtigen Datenbank sehr hilfreich sein.

Aufbereitung von Information

Damit Nutzer Texte in Datenbanken wiederfinden können, müssen diese zunächst aufbereitet werden, d.h. man ordnet den Texten durch Indexierung so genannte Deskriptoren, also Begriffe, die den Inhalt des Texts genauer beschreiben, zu und ordnet diese in so genannten Klassifikationen oder Thesauri.

Information Retrieval Modelle

Vorbemerkungen

Bei der inhaltsorientierten Suche unterscheidet man zunächst drei Abstraktionsebenen:

  • Syntax: Das Dokument wird lediglich als Folge von Symbolen betrachtet.
  • Semantik: Bedeutung und Inhalt des Dokuments werden untersucht.
  • Pragmatik: Die Nutzung des Dokumentes erfolgt nur für einen bestimmten Zweck, das Oberthema muss bei allen gefundenen Dokumenten gleich sein, der genaue Inhalt kann aber variieren.

Allgemein unterscheidet man Exact-Match-Paradigma und Partial-Match-Paradigma. Ersteres Paradigma liefert nur 100%ige Treffer während die partial-Methode eine Sortierung von relevant bis weniger relevant vornimmt.

Verschiedene Retrieval-Modelle

Im folgenden Kapitel wird auf verschiedene Retrieval-Modelle eingegangen, dabei geht es vor allem um ein generelles Verständnis des jeweiligen Modells. Der Schwerpunkt liegt auf dem mengentheoretischen Modell, da es zu den am weitesten verbreiteten gehören.

Mengentheoretische Modelle

Boole’sche Logik

Die Boole'sche Logik geht auf eine Theorie des englischen Mathematikers und Logikers George Boole (1815-64) zurück. Bei ihr handelt es sich um eine mächtige Retrievalsprache, die es ermöglicht, beliebige Mengen aus einer Dokumentenkollektion zu selektieren und miteinander zu verknüpfen. Dies geschieht mit so genannten Suchoperatoren.

Vor- und Nachteile der Boole'schen Logik

Die Vorteile der Boole'schen Logik liegen vor allem in der unkomplizierten Infrastruktur und im einfachen Implementieren der Operatoren.

Ein großer Nachteil hingegen ist, dass die Ergebnisse nicht gerankt sind, also in beliebiger Reihenfolge erscheinen und es ganz allein am Nutzer liegt das Ergebnis auszuwerten. Außerdem ist das Formulieren der Anfrage sehr aufwendig und man kann nicht voraussehen, wie umfangreich das Resultat der Recherche sein wird. Es auch unmöglich, das unterschiedliche Gewicht der Terme innerhalb des Dokumentes zu berücksichtigen, es kann beispielsweise wichtig sein, ob ein Begriff in der Überschrift oder im Textcorpus vorkommt.

Vektorraum-basierte Modelle

In diesem Abschnitt wird kurz auf die Vektorraum-basierten Modelle eingegangen. Sie zeichnen sich durch eine hohe Retrievalqualität aus, fast alle Suchmaschinen im Web nutzen diese Modelle.

Besonders erwähnenswert ist die Relevanzrückkopplung, der Nutzer ist dazu aufgefordert zwischendurch das Ergebnis der Recherche zu beurteilen, damit das System vom Urteil des Nutzers ausgehend eine modifizierte Fragestellung entwickeln kann.

Dadurch wird die Retrievalqualität noch höher. Umfragen haben jedoch ergeben, dass viele Nutzer gar ich bereit sind, während der Recherche Relevanzurteile abzugeben.

Probabilistisches Retrieval

Die beiden bisher beschriebenen Modelle berechnen die Ähnlichkeit zwischen der Suchanfrage des Nutzers und der Beschreibung, der in der Datenbank vorhandenen Dokumente.

Das nun folgende Modell hingegen schätzt die Wahrscheinlichkeit, dass ein Dokument auf eine Anfrage als relevant betrachtet wird. Im Ergebnis werden die Dokumente nach dieser geschätzten Wahrscheinlichkeit geordnet. Genau diese Sortierung der gefundenen Dokumente ist auch der größte Vorteil des probabilistischen Retrieval-Modells.

Der Prozess des Ordnens nach einer wahrscheinlichen Relevanz für den Nutzer nennt man Ranking.

Bewertung von Information Retrieval Modellen

Nach gelungener oder auch nicht gelungener Recherche ist es sicherlich für jeden Nutzer interessant zu erfahren, wie effizient das Retrieval-System mit dem er gearbeitet hat, tatsächlich ist. Die häufigsten Qualitätsmaße, die in diesem Zusammenhang verwendet werden sind Recall und Precision. Diese Beiden Kennwerte hängen in der Regel in einem direkten Zusammenhang, in so fern, als die Verbesserung des einen Wertes in der Regel die Verschlechterung des anderen mit sich bringt. Eine Erhöhung des Recall (beispielsweise indem die Suchanfrage um Synonyme ergänzt wird) zieht in der Regel eine Erniedrigung der Precission (mehr Balast) nach sich und umgekehrt.

Quellen

  • Fuhr, Nobert (2004): Theorie des Information Retrieval I: Modelle. In: Kuhlen, Rainer; Seeger, Thomas; Strauch, Dietmar (2004): Grundlagen der praktischen Information und Dokumentation. Handbuch zur Einführung in die Informationswissenschaft und -praxis. München: K. G. Saur. S. 207-214.
  • Kind, Joachim (2004): Praxis des Information Retrieval. In: Kuhlen, Rainer; Seeger, Thomas; Strauch, Dietmar (2004): Grundlagen der praktischen Information und Dokumentation. Handbuch zur Einführung in die Informationswissenschaft und -praxis. München: K. G. Saur. S. 389-398.
  • Nohr, Holger (2004): Theorie des Information Retrieval II: Automatische Indexierung. In: Kuhlen, Rainer; Seeger, Thomas; Strauch, Dietmar (2004): Grundlagen der praktischen Information und Dokumentation. Handbuch zur Einführung in die Informationswissenschaft und -praxis. München: K. G. Saur. S. 215-225.
  • Womser-Hacker, Christa: Theorie des Information Retrieval III: Evaluierung. In: In: Kuhlen, Rainer; Seeger, Thomas; Strauch, Dietmar (2004): Grundlagen der praktischen Information und Dokumentation. Handbuch zur Einführung in die Informationswissenschaft und -praxis. München: K. G. Saur. S. 227-235.

(alle Links zuletzt besucht am 18.08.2010)

Verwandte Begriffe

… weitere Daten zur Seite „Information Retrieval
Mit Information Retrieval bezeichnet man Methoden und Verfahren, die der Aufbereitung und Speicherung von 'verdatetem' Wissen und der Gewinnung von Informationen dienen +