Information Retrieval im Web
Information Retrieval umfasst "alle Verfahren …, die mit der Aufbereitung, Speicherung und Wiedergewinnung (Recherche) von Wissen (Texte, Fakten) zu tun haben." Luckhardt, Information Retrieval
Inhaltsverzeichnis
Aufbereitung von Wissen im Web
Aufbereitung von Webseiten durch den Webdesigner
Die Aufbereitung von Wissen im Web bezieht sich im Rahmen des Webpublishing auf die Vorbereitung von Webseiten für die leichtere Auffindbarkeit durch Suchmaschinen. Dazu gehört vor allem das Aufbereiten des Seiteninhalts durch Proactive Webdesign.
Zusätzlich muss man auch dafür sorgen, dass die Suchmaschinen die neue Seite auch finden können. Zu diesem Zweck gibt es auf der Webseite der meisten Suchmaschinen eine Möglichkeit, eine Seite zur Aufnahme in den Suchmaschinenindex vorzuschlagen. Da z. B. Google die so vorgeschlagenen Seiten nur sehr nachrangig in Betracht zieht, empfiehlt sich auf jeden Fall auch der Eintrag in einen oder besser mehrere Kataloge.
Durch Katalogeinträge erreicht man auch, dass die Anzahl der auf die vorbereitete Webseite verlinkenden Seiten zunimmt, was dem besseren Auffinden der Webseite dienlich ist: Zum einen finden Suchmaschinen ihnen bisher unbekannte Webseiten unter anderem durch das Verfolgen von Links, die auf schon bekannten Webseiten gefunden werden. Zum anderen benutzen etliche Suchmaschinen die Anzahl und das Ranking der verlinkenden Webseiten, um die Relevanz der neuen Webseite einzuschätzen.
Die (Google bekannten) Webseiten, die auf eine bestimmte Webseite (hier www.example.de) verlinken, kann man mit folgender Google-Abfrage ermitteln: link:www.example.de
Aufbereitung von Webseiten durch die Suchmaschine
Ausführliche Informationen dazu enthält der Artikel Suchmaschinen.
Speicherung von Wissen im Web
Im Unterschied zu klassischen Informationssystemen gibt es im Web keinen zentralen Speicher. Manche Suchmaschinen wie Yahoo! oder Google haben zwar eine Version vieler Webseiten im Cache, diese wird jedoch bei jedem Durchlauf des Robots aktualisiert, sodass es keine dauerhafte Speicherung eines bestimmten Zustands einer Webseite gibt.
Im Rahmen des Information Retrieval sollte man also darauf achten, dass man bei gefundenen Informationen sich nicht nur die Quelle aufschreibt, sondern das Dokument lokal speichert, um die einmal gefundene Information zuverlässig wieder auffinden zu können.
Wiedergewinnung von Wissen im Web
Es gibt viele Möglichkeiten, im Web vorhandenes Wissen wiederzugewinnen: Hauptsächlich gehören dazu Newsgroups, Spezialangebote, Kataloge und natürlich Suchmaschinen.
Für tagesaktuelle Nachrichten allerdings sollte man, je nach Gebiet, Webseiten von Nachrichtenagenturen, Tageszeitungen oder z. B. Banken aufsuchen.
Suchmöglichkeiten
Dieser Teil stellt kurz vor, WAS man im Web durchsuchen kann, um Informationen zu gewinnen. Genauere Informationen darüber, WIE man eine Suchabfrage gestaltet, bietet der Artikel Syntax von Suchabfragen.
Newsgroups
Newsgroups an sich gehören an sich nicht zum World Wide Web, sondern sind Teil des Usenets. Jedoch spätestens seit Google Groups die Möglichkeit bietet, viele Newsgroups über ein Web-Frontend zu benutzen und zu durchsuchen, sind auch sie eine wichtige Ressource zur Informationsgewinnung im Web.
Newsgroups kann man am besten mit Diskussionsgruppen vergleichen - jemand stellt eine Frage oder stellt eine These auf und andere reagieren darauf und posten ihre eigenen Beiträge. Daher sind sie gut geeignet, Antworten zu spezifischen Fragen oder Problemen zu finden. Die Inhalte sind aber nicht als allgemeines Informationsangebot zu sehen, sondern müssen immer im Kontext der Fragestellung gesehen werden.
Newsgroups in ihrer ursprünglichen Form sind nicht gut für Information Retrieval ausgelegt, allerdings bietet Google für die über Google Groups erreichbaren Newsgroups eine Suchmaske an, die auch erweiterte Suchmöglichkeiten bietet.
Unter http://de.wikipedia.org/wiki/Newsgroups findet man technische Einzelheiten zu Newsgroups.
Spezialangebote
Unter Spezialangeboten versteht man vor allem (in der Regel kostenpflichtige) Datenbanken, deren Benutzerschnittstelle man über das Internet ansprechen kann. Ein Beispiel dafür ist Juris, wo man auf eine Datenbank mit Informationen zu Gesetzen und Rechtsprechung zugreifen kann. Andere Spezialangebote stellen z. B. die Archive mancher Zeitschriften dar.
Derartige Spezialangebote sind vor allem dann interessant, wenn man hohes Vorwissen besitzt und/oder eine sehr spezifische Anfrage hat. Für eine allgemeine Recherche zu einem Thema sind sie (schon aus Kostengründen) ungeeignet.
Kataloge
Kataloge benutzt man am besten, wenn man sich nur eine vage Idee vom Thema hat, aber noch keine genauen Begriffe. Durch die hierarchische Struktur kann man das Thema immer weiter eingrenzen. Der Artikel Kataloge gibt nähere Informationen über Aufbau und Arbeitsweise von Katalogen. Bekannte Kataloge sind das Open Directory Project, das Verzeichnis von Yahoo!und DINO Online.
- Vorteile
- Man muss keine genauen Suchbegriffe kennen, um thematisch passende Informationen zu finden.
- Durch die manuelle Überprüfung und Einordnung der vorgeschlagenen Seiten ist eine Manipulation nur schwer möglich, die in einer bestimmten Kategorie gefundenen Einträge enthalten daher meist relevante Informationen.
- Nachteile
- Um eine kompetente Einteilung der Webseiten vornehmen zu können, muss für jedes Fachgebiet (mindestens) ein verantwortlicher Editor vorhanden sein. Das führt dazu, dass es für spezielle Themen unter Umständen keinen Editor gibt, dieses Gebiet also auch nicht im Katalog auftaucht.
- Abhängig vom Arbeitsaufwand der Editoren sind die Einträge nicht immer aktuell, manchmal findet man auch tote Links.
- Die Auswahl der Seiten ist vom Editor abhängig und somit subjektiv.
- Es gibt kein Ranking der zu einem Thema gehörigen Seiten, man kann also nicht sehen, welche Seite am besten zu diesem Thema passt.
- Die meist zusätzlich angebotene Suchmöglichkeit durchsucht in der Regel nur den Titel sowie die eingegebene Beschreibung der Seite, es gibt also keine Volltextsuche.
Suchmaschinen
Suchmaschinen sind ideal, wenn man zumindest schon ein paar Fachbegriffe, die zum gesuchten Thema gehören, hat. Da der Recall bei Suchmaschinen meist ziemlich groß ist, ist es oft angebracht, die Sucheanfrage mit den bei der ersten Suche gefundenen Begriffen weiter einzuengen. Standardmäßig machen alle Suchmaschinen eine UND-Abfrage (siehe auch Abschnitt Syntax), so dass immer alle in der Abfrage vorkommenden Begriffe auch in den Ergebnissen vorkommen müssen. Eine Anfrage in natürlicher Sprache ist nur sehr bedingt möglich (ein derartiger Service wurde von früher AskJeeves angeboten), bringt aber meist nicht so gute Ergebnisse.
Beachten sollte man, dass etliche Suchmaschinen den gleichen Index benutzen und nur unterschiedliche Benutzerschnittstellen anbieten. AllTheWeb, Yahoo! und Altavista benutzen beispielsweise alle den von Overture erstellten Index. Da es aber trotzdem mehrere Anbieter gibt, die auch unterschiedliche Such- und Rankingalgorithmen benutzen,lohnt es sich bei spezifischen Abfragen auf jeden Fall, mehrere Suchmaschinen auszuprobieren. Neben den im Artikel oft erwähnten Anbietern Google, Yahoo und Altavista sind z. B. Vivisimo oder Teoma interessant.
Metasuchmaschinen wie | MetaGer führen keinen eigenen Index, sondern durchsuchen mehere andere Suchmaschinen. Dies hat aber den Nachteil, dass von denen in Syntax von Suchabfragen vorgestellten Abfragemöglichkeiten nur die genutzt werden können, die alle benutzten Suchmaschinen verstehen.
- Vorteile
- Da Suchmaschinen das Internet in regelmäßigen Abständen durchsuchen, sind die Ergebnisse meist noch passend zur Abfrage und es gibt selten tote Links. Falls sich die Webseite im Zeitraum zwischen Indexierung und Abfrage doch geändert haben sollte, kann man unter Umständen die gecachte Version der Webseite benutzen (z. B. bei Google und Yahoo!)
- Durch die automatische Erfassung wird eine hohe Anzahl an Webseiten in den Index aufgenommen, es gibt keine Verzögerung durch manuelle Überprüfung.
- Webseiten werden unabhängig von ihrem Thema indexiert, sodass eine hohe Themenabdeckung erreicht wird.
- Die Suchergebnisse werden nach ihrer Relevanz geordnet, sodass (idealerweise) die passendsten Ergebnisse ganz oben stehen.
- Nachteile
- Da die meisten Suchmaschinen eine Volltextsuche machen, sind im Suchergebnis auch Webseiten enthalten, die das gesuchte Thema nur am Rande behandeln. Dies wird aber (zumindest teilweise) durch das Ranking der Ergebnisse behoben.
- Die Automatik zum Erfassen und Ranking der Webseiten kann manipuliert werden, sodass unter Umständen wenig relevante oder total unpassende Webseiten weit oben in der Ergebnisliste auftauchen. Dies kann z. B. durch den Aufbau von Linkfarmen, durch die die Anzahl der verlinkenden Seiten künstlich erhöht wird, erreicht werden. Andere Methoden sind das Benutzen von weißem Text auf weißem Hintergrund (der von Suchmaschinen, aber nicht vom Benutzer der Webseite gesehen wird). Allerdings verbessern Suchmaschinenbetreiber ihre Algorithmen ständig, sodass immer mehr Betrugsmethoden erkannt werden und derartige Webseiten aus dem Index ausgeschlossen werden.
- Bei manchen Suchmaschinen gibt es die Möglichkeit, sich die Platzierung in der Ergebnisliste zu erkaufen. Derartig gekaufte Platzierungen sind nicht immer erkennbar gekennzeichnet, sodass auch hier die Möglichkeit besteht, für die Abfrage irrelevante Ergebnisse zu erhalten.
Invisible Web
Beim Benutzen von Suchmaschinen sollte man sich aber auch im klaren darüber sein, dass bei weitem nicht alle vorhandenen Webseiten von diesen gefunden werden. Der Anteil der von Standardsuchmaschinen wie Google oder Altavista nicht gefundenen Webseiten am gesamten Web ist schwer abzuschätzen, es werden Zahlen von bis zu 99% (!) genannt.
Ein Teil des 'invisible web' ist in Datenbanken (z. B. Spezialangebote, Shops, Stellenangebote) versteckt. Die bei einer Datenbankabfrage erzeugte Seite wird erste im Moment der Abfrage erzeugt und kann von Suchmaschinen, die beim Durchsuchen einer Seite ja keine Abfragefelder ausfüllen, nicht indexiert werden. Teilweise kann dies im Rahmen des Proactive Webdesign durch mod_rewrite verhindert werden, dies klappt aber nicht bei sehr großen Datenbanken oder interaktiv erzeugten Seiten.
Es gibt Kataloge, die Datenbanken aller Art auflisten, diese sollte man beim Information Retrieval also auf jeden Fall mit berücksichtigen. Dazu gehören z. B. Suchlexikon oder auch Invisible Web.
Quellen und Links
- Luckhardt, Heinz-Dirk (2005):Information Retrieval, Virtuelles Handbuch der Informationswissenschaft, Universität des Saarlandes. Online verfügbar unter: http://www.is.uni-sb.de/studium/handbuch/exkurs.ir.php
- Information zu Suchmaschinen im Web allgemein:
- Karzauninkat, Stefan: Die Suchfibel. Wie findet man Informationen im Internet? Online verfügbar unter: http://www.suchfibel.de
- SearchEngineWatch. The source for search engine marketing. Online verfügbar unter: http://searchenginewatch.com
- Google Webmaster‘s HowTo. Online verfügbar unter: http://www.google.com/intl/en/webmasters/
- Yahoo! Hilfe: http://eur.help.yahoo.com/help/de/ysearch/
- Engelschall, Ralf S. (1997): URL Rewriting Guide. Online verfügbar unter: http://httpd.apache.org/docs-2.0/misc/rewriteguide.html
- Deep Web: http://www.brightplanet.com/technology/deepweb.asp#SizeAnalysis
- Invisible web : http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html
(Alle Links überprüft am 12. März 2005)