Suchmaschinen im Web

Suchmaschinen bieten die Möglichkeit, im WWW über Suchbegriffe nach Informationen zu suchen. Sie sind ein Recherchemittel des Information Retrieval (vgl. auch Information Retrieval im Web) und werden hierbei als Interface, d.h. als Schnittstelle zwischen Mensch und Computer, verwendet. Der Nutzer gibt einen Suchbegriff ein, wodurch die Suchmaschine in einem Ranking Verweise auf möglicherweise relevante Dokumente gibt, meist dargestellt mit Titel und einem kurzen Auszug des jeweiligen Dokuments.

Inhaltsverzeichnis

1 Arten von Suchmaschinen
2 Sonderfall Metasuchmaschine
3 Aufbereitung von Webseiten durch die Suchmaschine
4 Suchmethoden
5 Sortierung der Ergebnisse
6 Grundprinzipien
7 Probleme
8 Suchmaschinenanbieter
9 Usability und Nutzerforschung
10 Links
11 Quellen
12 Verwandte Begriffe

Arten von Suchmaschinen

Universalsuchmaschine
Geläufigste Art von Suchmaschinen; ihr Ziel ist es, - soweit möglich (siehe Invisible Web) - das gesamte WWW zu erfassen.

Spezialsuchmaschine
Bezieht sich auf ein spezielles Themengebiet.

Archivsuchmaschine
Speichert gefundene Web-Seiten auf eigenen Rechnern ab, um diese dauerhaft verfügbar zu machen.

Sonderfall Metasuchmaschine

Eine spezielle Art von Suchmaschine, bei der mehrere Suchdienste automatisch über eine Schnittstelle abgefragt werden. Sie besitzt keine eigene Datenbank.

Vorteil einer Metasuchmaschine ist der sehr hohe Recall sowie die große Netzabdeckung. Jedoch wird nur der gemeinsame Nenner an Suchoperatoren unterstützt, so dass die Qualität der Suchergebnisse unter Umständen auf die der am wenigsten effizienten Suchmaschine reduziert wird.

Aufbereitung von Webseiten durch die Suchmaschine

Web-Crawler durchkämmen automatisch über Links das Web, "sammeln" alle auffindbaren Dokumente ein (Crawling) und speichern sie unstrukturiert und unreflektiert in großen Datenbanken.

Dabei kann prinzipiell von einem einzigen Dokument ausgegangen werden. Nach der Erfassung dieses Dokuments werden die darin enthaltenen Links verfolgt, wodurch neue Dokumente gefunden werden. Diese werden wiederum erschlossen, enthaltene Links werden wiederum verfolgt.

Im Idealfall ließe sich durch dieses Verfahren das gesamte Web erschließen.

Die Aufbereitung geschieht mit Hilfe von:

Metadaten
Prinzipiell sind dies Daten, die Informationen über andere Daten enthalten. Sie sind in der HTML in so genannten Meta-Tags enthalten und geben Auskunft über Sprache, Autor, Unternehmen, Schlagwörter,..., die dann von den Suchmaschinen ausgewertet werden.

Bsp.: Dublin Core = Metadaten-Schema zur Beschreibung von Dokumenten und anderen Objekten im Internet, entstanden 1994 aus der DCMI (Dublin Core Metadata Initiative).

Clustering
Ähnliche Dokumente werden nach Ermittlung der Treffermenge aufgrund ihrer gemeinsam vorkommenden Stichwörter in eigene Klassen zusammengeführt.

Stemming
Wörter werden auf den Grundstamm reduziert, wodurch alle Formen eines Wortes gemeinsam gewertet werden.

Gängige Dokumenttypen:

Suchmethoden

Um die Suche zu verfeinern oder zu verbessern, kann der Nutzer auf verschiedene Suchoperatoren zurückgreifen, welche von Anbieter zu Anbieter unterschiedlich sind (siehe auch Syntax von Suchabfragen). Einige davon sind:

Bool'sche Logik
Adjacency-Funktion
Phrasensuche
Trunkierung
Suchraumeingrenzung (zeitlich, Format,...)
Relevance Feedback
Fuzzy-Suche = Phonetische Suche nach Wörtern, die gleich klingen

Sortierung der Ergebnisse

Die Treffermenge wird nach Eingabe des Suchbegriffs in einem so genannten Ranking ausgewertet, bei dem die ersten Treffer die größte Relevanz für den Suchbegriff aufweisen sollten. Faktoren für diese Relevanzbeurteilung sind Wortgewichtung, Wortabstand, Position der Suchbegriffe oder Klickhäufigkeit.

Ein besonderer Aspekt der Relevanzbeurteilung ist die Linktopologie, von Google als PageRanking bezeichnet.

Sie bezieht sich auf die Linkstruktur des Webs, so dass jede Seite ein Gewicht hat, das umso größer ist, je mehr Seiten mit einem hohen eigenen Gewicht auf diese Seite verweisen. Das heißt, je mehr Links von anderen Seiten auf diese Webseite verweisen, desto höher ist die Positionierung im Ranking.

Negativer Aspekt daran ist, dass so genannte "Suchmaschinen-Optimierer" Backlinks für Webseiten erkaufen, damit diese möglichst hoch im Ranking positioniert werden. Somit rückt die Qualität bei der Relevanzbeurteilung vermehrt in den Hintergrund.

Ein weiteres negatives Beispiel ist das der "Google-Bombe": Google-Suchergebnisse werden für eine bestimmte Webseite durch vielfaches Setzen von Links mit einem vereinbarten Ankertext manipuliert. Gibt man diesen Ankertext nun als Suchbegriff ein, erscheint nicht nur die Seite mit dem Link, sondern auch die Seite, auf die der Link verweist. So haben mehrere Webseiten mit dem Ankertext "failure" die Homepage von "Michael Moore" verlinkt. Wenn man bei Google nun den Begriff "failure" eingibt, erscheint diese Webseite auf höchster Position im Ranking.

Außerdem entstanden im Netz inoffizielle Wettbewerbe, so genannte Suchmaschinen-Optimierungs-Wettstreite, bei der Begriffe wie "Schnitzelmitkartoffelsalat" oder "Hommingberger Gepardenforelle" (also Begriffe, die im Suchmaschinenindex noch nicht vorkamen) auf die höchstmögliche Position im Ranking gebracht werden sollten.

Grundprinzipien

Akualität
Bei großen Suchmaschinen wird etwa alle 30 Tage eine Indexaktualisierung vorgenommen.

Qualität
Diese soll durch die Rankingfaktoren gewährleistet werden.

Verbesserung der Dokumentrepräsentation
Einteilung der Dokumente in sinnvolle Felder bei der Aufbereitung, Hinzufügen weiterer Attribute für die Repräsentation der Dokumente,...

Probleme

Publikationsflut
Das Web wächst schneller als die Suchmaschinen mit der derzeitigen Technik indexieren können. So wird es für die Suchmaschinen auch problematisch, immer auf dem aktuellsten Stand zu sein.

Invisible Web
Der Teil des Webs, der über Suchmaschinen nicht auffindbar ist.

Lost in Hyperspace
Orientierungslosigkeit bei der Webrecherche.

Kognitive Overload
Wenn der Navigationsaufwand den Leseaufwand übersteigt, kann es zur Belastung der menschlichen Aufnahmefähigkeit kommen.

Spamming
Webseiten-Betreiber versuchen, den Ranking-Algorithmus der Suchmaschinen zu überlisten, um eine bessere Platzierung für gewisse Suchanfragen zu bekommen.

Rechtliches
Durch den unkontrollierten Input des Internets treten Probleme beim Urheberrecht auf (siehe Copyright und Internet). Außerdem sind bei international betriebenen Suchmaschinen die unterschiedlichen Gesetzgebungen der jeweiligen Länder zu beachten.

Formale Sprache
Für Suchmaschinen werden formale Sprachen benötigt, wenn sie effektiv genutzt werden sollen. Dies verhindert aber, dass es jedermann möglich ist, effektiv an gesuchte Informationen zu gelangen, da nicht jeder die passende Sprache beherrscht. Mit der Möglichkeit einer natürlichsprachlichen Suche würde sich dies beheben lassen (siehe Natürliche Sprache und Suchmaschinen).

Suchmaschinenanbieter

Aufgrund der Komplexität des Webs scheint auf den ersten Blick ein gesunder Wettbewerb zwischen den Suchmaschinenanbietern zu bestehen, jedoch beherrschen nur wenige den Markt.

Die größten vier sind in der unten angegebenen Tabelle aufgeführt. Yahoo hat durch den Aufkauf von "Alltheweb", "Altavista" und dem Suchtechnologie-Anbieter "Inktomi" seit 2004 eine eigene Suchmaschine. MSN hat seit 2003 eine eigene Suchtechnologie und Askjeeves betreibt durch den Aufkauf von "Teoma" seit 2003 eine eigene Suchmaschine.

Quelle: Lewandowski, Dirk (2005): Technologien zur Informationssuche im Internet, DGI (Hrsg.), Dinges & Frick GmbH, Wiesbaden

Usability und Nutzerforschung

Um zu überprüfen, inwieweit Standards für das Produkt Suchdienstleistung im Web existieren und wie diese Funktionalitäten bereits heute in die Angebote integriert sind, werden Usability-Tests für Suchmaschinen durchgeführt.

Dabei wird, wie in einer Projektarbeit des Fachbereichs Informations- und Wissensmanagement (IuW) der Fachhochschule Darmstadt mit der T-Online International AG (Weiterstadt) im März 2004, ein Kriterienkatalog mit unterschiedlichen Kategorien wie "Such- und Hilfefunktionen" oder "Zusatzdienste" erstellt, mit dem verschiedene Suchmaschinen dann überprüft werden.

Ziel dieser Untersuchungen ist es, die Suchmaschinen so zu verbessern, dass der Nutzer möglichst schnell, einfach und umfassend zum Ergebnis kommt.

Außerdem führen die Suchmaschinenanbieter Nutzerbefragungen (Fragebögen, Telefoninterviews,...), "Laborexperimente" (Nutzer werden bei der Recherche direkt beobachtet) oder Logfile-Analysen (Anzahl der ausgewerteten Anfragen der Nutzer) durch, um sich zentral an den Bedürfnissen ihrer Nutzer zu orientieren.

Dabei stellte sich heraus, dass die Anfragen im Bereich "Technologie" und "Sex" rückgängig sind, wohingegen Anfragen im Bereich E-Commerce zunehmen.

Die Arten der Suchanfragen teilen sich wie folgt auf (400 zufällige Anfragen bei Altavista):

navigationsorientiert: 20-24,5 %
Der Nutzer versucht, eine bestimmte Webseite zu erreichen, von der er weiß bzw. vermutet, dass es sie gibt.

informationsorientiert: 39-48 %
Der Nutzer versucht, thematisch passende Dokumente zu finden.

transaktionsorientiert: 22-30 %
Für den Nutzer soll nach dem Auffinden eine Transaktion folgen (Download oder Kauf eines Produkts).

Links

Suchmaschinen
- Google
- Altavista
- Fireball
- Alltheweb

Metasuchmaschinen
- Nettz.de
- Metager
- Metaspinner^
- Suchen.com

Bool'sches Modell: http://www.boolistic.de

Quellen

Fauldrath, Jens; Arne Kunisch (2005): Kooperative Evaluation der Usability von Suchmaschineninterfaces. IW & P, 21-28 [1] (letzter Zugriff: 01.06.2007)

Karzauninkat, Stefan (1999): Zielfahndung. Suchmaschinen, Kataloge, Spezialisten und kommerzielle Datenbanken richtig einsetzen. http://www.heise.de/ct/99/23/172/, (08.07.2002)

Lewandowski, Dirk (2005): Technologien zur Informationssuche im Internet, DGI (Hrsg.), Dinges & Frick GmbH, Wiesbaden

Luckhardt, H.-D. (2005): Information Retrieval, eine erste Orientierung. Online verfügbar unter: http://is.uni-sb.de/studium/handbuch/exkurs.ir.html (letzter Zugriff: 30.11.05)

Luckhardt, H.-D.: Terminosaurus Rex der Informationswissenschaft, Universität des Saarlandes, Suchbegriff „Suchmaschine“. Online verfügbar unter: http://server02.is.uni-sb.de/trex/index.php?query=suchmaschine&id=2.1.6.2.2.5.3.&suche=Y (letzter Zugriff: 26.01.06)

Suchmaschinen im Web

Inhaltsverzeichnis

Arten von Suchmaschinen

Sonderfall Metasuchmaschine

Aufbereitung von Webseiten durch die Suchmaschine

Suchmethoden

Sortierung der Ergebnisse

Grundprinzipien

Probleme

Suchmaschinenanbieter

Usability und Nutzerforschung

Links

Quellen

Verwandte Begriffe

Navigationsmenü

Meine Werkzeuge

Namensräume

Varianten

Ansichten

Mehr

Suche

Navigation

Werkzeuge