Version vom 16. Juli 2005, 18:41 Uhr

Inhaltsverzeichnis

1 Definition
2 Probleme
- 2.1 Charakteristika des Gebietes
- 2.2 Probleme bei der Suche nach Information

Definition

Mit Information Retrieval bezeichnet man Methoden und Verfahren, die der Aufbereitung und Speicherung von 'verdatetem' Wissen und der Gewinnung von Informationen dienen. (Luckhardt 2001)

Im Gegensatz zum Begriff "Inforamtion Retrieval" beinhaltet die genannte Definition neben dem Wiederfinden auch die Aufbereitung und Speicherung von Wissen.

Probleme

Der folgende Abschnitt befasst sich mit allgemeinen Problemen die beim Information Retrieval auftreten.

Charakteristika des Gebietes

Vage Anfragen

Die von den Nutzern formulierten Anfragen sind oft sehr ungenau formuliert, nicht unbedingt aus Unerfahrenheit oder Unwissenheit sondern weil er noch gar keine klare VOrstellung von der Antwort hat nach der er eigentlich sucht.

Unsicheres Wissen

Dem Retrieval System fehlen in der Regel Kenntnisse über den Inhalt der Dokumente. Dies führt zu fehlerhaften und fehlenden Antworten. Besondere Probleme bei Texten bereiten z. B. Homonyme (Worte, die gleich geschrieben werden; z. B. Bank - Geldinstitut, Sitzgelegenheit) und Synonyme (Bank und Geldinstitut).

Probleme bei der Suche nach Information

Die nahezu unüberschaubare Größe des Web und seine Dynamik, es werden permanent Änderungen vorgenommen, die keiner zentralen Verwaltung unterliegen.
Die Heterogenität der Dokumente im WWW bietet einerseits eine große Vielfalt, erschwert aber auch die Auswahl. Außerdem gibt es keinerlei Qualitätskontrolle ob ein Text von einem Laien oder einem Wissenschaftler verfasst wurde, muss man selbst herausfinden.
Die weltweite Verteilung schafft vor allem Sprachbarrieren und Übersetzungsprobleme aber auch kulturelle Unterschiede spielen eine Rolle.
Die fehlende Organisation und Struktur des WWW erschwert die Suche, zwar gibt es zahlreiche Suchmaschinen, die die Nutzer bei ihrer Suche unterstützen, dennoch gibt es zahlreiche "unentdeckte" Gegenden im WWW. Unterstützt wird dies noch durch die Hypertextstruktur, die keinen klaren Weg druch das WWW vorgibt.
Da es neben öffentlichen und gemeinnützigen auch kommerzielle Anbieter im Internet gibt, kommt es zu einer großen Konkurrenz, der Nutzer muss genau prüfen, wer der Anbieter/Verfasser der benutzen Dokumente ist.
Unter dem Stichwort deep oder invisible Web versteht man die vielen nicht Teile des Internets die unentdeckt bleiben und nicht mal von Suchmaschinen gefunden werden, obwohl sie nützliche Informationen enthalten könnten. Werden Multimedia-Elemente oder Dateien, die nicht im HTML oder txt-Format vorliegen1, nicht mit textuellen Erläuterungen versehen, sind sie für die Suchdienste unauffindbar.
Der Versuch eines Autors seine Seite im Ranking einer Suchmaschine besser zu platzieren heißt Spamming. Dies kann man zum Beispiel durch eine Mehrfachnennung von Schlüsselbegriffen in Bereichen des Dokuments bewerkstelligen, welche für den Benutzer unsichtbar bleiben (z.B. in Kommentarzeilen des Quelltextes), bzw. durch "Verstecken" von Begriffen im lesbaren Teil einer Webseite (z.B. durch Wahl eines Schriftgrads, der so klein ist, dass das menschliche Auge ihn nicht wahrnehmen kann).

@@ Zeile 18: / Zeile 18: @@
 *Die '''Heterogenität''' der Dokumente im WWW bietet einerseits eine große Vielfalt, erschwert aber auch die Auswahl. Außerdem gibt es keinerlei Qualitätskontrolle ob ein Text von einem Laien oder einem Wissenschaftler verfasst wurde, muss man selbst herausfinden.
 *Die '''weltweite Verteilung''' schafft vor allem Sprachbarrieren und Übersetzungsprobleme aber auch kulturelle Unterschiede spielen eine Rolle.
-*Die '''fehlende Organisation und Struktur''' des WWW erschwert die Suche, zwar gibt es zahlreiche Suchmaschinen, die die Nutzer bei ihrer Suche unterstützen, dennoch gibt es zahlreiche "unentdeckte" Gegenden im WWW.
+*Die '''fehlende Organisation und Struktur''' des WWW erschwert die Suche, zwar gibt es zahlreiche Suchmaschinen, die die Nutzer bei ihrer Suche unterstützen, dennoch gibt es zahlreiche "unentdeckte" Gegenden im WWW. Unterstützt wird dies noch durch die [[Hypertext]]struktur, die keinen klaren Weg druch  das WWW vorgibt.
 *Da es neben öffentlichen und gemeinnützigen auch kommerzielle Anbieter im Internet gibt, kommt es zu einer großen '''Konkurrenz''', der Nutzer muss genau prüfen, wer der Anbieter/Verfasser der benutzen Dokumente ist.
-*Unter dem Stichwort '''deep oder invisible Web''' versteht man die vielen nicht Teile des Internets die unentdeckt bleiben und nicht mal von Suchmaschinen gefundeb werden, obwohl sie nützliche Informationen enthalten könnten.
+*Unter dem Stichwort '''deep oder invisible Web''' versteht man die vielen nicht Teile des Internets die unentdeckt bleiben und nicht mal von Suchmaschinen gefunden werden, obwohl sie nützliche Informationen enthalten könnten. Werden Multimedia-Elemente oder Dateien, die nicht im HTML oder txt-Format vorliegen1, nicht mit textuellen Erläuterungen versehen, sind sie für die Suchdienste unauffindbar.
-*Spamming
+*Der Versuch eines Autors seine Seite im Ranking einer Suchmaschine besser zu platzieren heißt '''Spamming'''. Dies kann man zum Beispiel durch eine Mehrfachnennung von Schlüsselbegriffen in Bereichen des Dokuments bewerkstelligen, welche für den Benutzer unsichtbar bleiben (z.B. in Kommentarzeilen des Quelltextes), bzw. durch "Verstecken" von Begriffen im lesbaren Teil einer Webseite (z.B. durch Wahl eines Schriftgrads, der so klein ist, dass das menschliche Auge ihn nicht wahrnehmen kann).

Information Retrieval: Unterschied zwischen den Versionen

Version vom 16. Juli 2005, 18:41 Uhr

Inhaltsverzeichnis

Definition

Probleme

Charakteristika des Gebietes

Probleme bei der Suche nach Information

Navigationsmenü

Meine Werkzeuge

Namensräume

Varianten

Ansichten

Mehr

Suche

Navigation

Werkzeuge