Suchmaschinen im Web: Unterschied zwischen den Versionen

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Zur Navigation springen Zur Suche springen
 
Zeile 142: Zeile 142:
  
  
[[Bild:Tabelle der Suchmaschinenanbieter.png]]
+
[[Bild:Tabelle_der_Suchmaschinenanbieter.PNG]]
  
 
 
 
== Usability und Nutzerforschung ==
 
== Usability und Nutzerforschung ==
  

Version vom 27. Januar 2006, 13:18 Uhr

Begriffserklärung

Suchmaschinen bieten die Möglichkeit, im WWW über Suchbegriffe nach Informationen zu suchen. Sie sind ein Recherchemittel des Information Retrieval (vgl. auch Information Retrieval im Web) und werden hierbei als Interface, d.h. als Schnittstelle zwischen Mensch und Computer verwendet.

Vorgehensweise: Der Nutzer gibt einen Suchbegriff ein, wodurch die Suchmaschine in einem Ranking Verweise auf möglicherweise relevante Dokumente gibt, meist dargestellt mit Titel und einem kurzen Auszug des jeweiligen Dokuments.


Arten von Suchmaschinen

  • Universalsuchmaschine
    Geläufigste Art von Suchmaschinen; ihr Ziel ist es, - soweit möglich (s. Invisible Web) - das gesamte WWW zu erfassen.
  • Spezialsuchmaschine
    Bezieht sich auf ein spezielles Themengebiet.
  • Archivsuchmaschine
    Speichert gefundene web-Seiten auf eigenen Rechnern ab, um diese dauerhaft verfügbar zu machen.


Metasuchmaschine

Eine spezielle Art von Suchmaschine, bei der mehrere Suchdienste automatisch über eine Schnittstelle abgefragt werden. Sie besitzt keine eigene Datenbank.

Vorteil einer Metasuchmaschine ist der sehr hohe Recall sowie die große Netzabdeckung. Jedoch wird nur der gemeinsame Nenner an Suchoperatoren unterstützt, so dass die Qualität der Suchergebnisse unter Umständen auf die der schlechtesten unterliegenden Suchmaschine reduziert wird.


Aufbereitung von Webseiten durch die Suchmaschine

Web-Crawler durchkämmen automatisch über Links das Web, "sammeln" alle auffindbaren Dokumente ein (Crawling) und speichern sie unstrukturiert und unreflektiert in großen Datenbanken.

Dabei kann prinzipiell von einem einzigen Dokument ausgegangen werden. Nach der Erfassung dieses Dokuments werden die darin enthaltenen Links verfolgt, wodurch neue Dokumente gefunden werden. Diese werden wiederum erschlossen, enthaltene links werden wiederum verfolgt.

Im Idealfall ließe sich durch dieses Verfahren das gesamte Web erschließen.


Die Aufbereitung geschieht mit Hilfe von:

  • Metadaten
    Prinzipiell sind dies Daten, die Informationen über andere Daten enthalten. Sie sind in der HTML in so genannten Meta-Tags enthalten und geben Auskunft über Sprache, Autor, Unternehmen, Schlagwörter,..., die dann von den Suchmaschinen ausgewertet werden.
    Bsp.: Dublin Core = Metadaten-Schema zur Beschreibung von Dokumenten und anderen Objekten im Internet, entstanden 1994 aus der DCMI (Dublin Core Metadata Initiative).
  • Clustering
    Ähnliche Dokumente werden nach Ermittlung der Treffermenge aufgrund ihrer gemeinsam vokommenden Stichwörter in eigene Klassen zusammengeführt.
  • Stemming
    Wörter werden auf den Grundstamm reduziert, wodurch alle Formen eines wortes gemeinsam gewertet werden.


Gängige Dokumenttypen:


Suchmethoden

Um die Suche zu verfeinern oder zu verbessern, kann der Nutzer auf verschiedene Suchoperatoren zurückgreifen, welche von Anbieter zu Anbieter unterschiedlich sind (siehe auch Syntax von Suchabfragen). Einige davon sind:

  • Bool'sche Logik
  • Adjacency-Funktion
  • Phrasensuche
  • Trunkierung
  • Suchraumeingrenzung (zeitlich, Format,...)
  • Relevance feedback
  • Fuzzy-Suche = Phonetische Suche nach Wörtern, die gleich klingen


Sortierung der Ergebnisse

Die Treffermenge wird nach Eingabe des Suchbegriffs in einem sogenannten Ranking ausgewertet, bei dem die ersten Treffer die größte Relevanz für den Suchbegriff aufweisen sollten. Faktoren für diese Relevanzbeurteilung sind Wortgewichtung, Wortabstand, Position der Suchbegriffe oder Klickhäufigkeit.


Ein besonderer Aspekt der Relevanzbeurteilung ist die Linktopologie, von Google als PageRanking bezeichnet.

Sie bezieht sich auf die Linkstruktur des Webs, so dass jede Seite ein Gewicht hat, das umso größer ist, je mehr Seiten mit einem hohen eigenen Gewicht auf diese Seite verweisen. Das heißt, je mehr Links von anderen Seiten auf diese Webseite verweisen, desto höher ist die Positionierung im Ranking.


Negativer Aspekt daran ist, dass so genannte "Suchmaschinen-Optimierer" Backlinks für Webseiten erkaufen, damit diese möglichst hoch im Ranking positioniert werden. Somit rückt die Qualität bei der Relevanzbeurteilung vermehrt in den Hintergrund.

Ein weiteres negatives Beispiel ist das der "Google-Bombe": Google-Suchergebnisse werden für eine bestimmte Webseite durch vielfaches Setzen von Links mit einem vereinbarten Ankertext manipuliert. Gibt man diesen Ankertext nun als Suchbegriff ein, erscheint nicht nur die Seite mit dem Link, sondern auch die Seite, auf den der Link verweist. So haben mehrere Webseiten mit dem Ankertext "failure" die Seite des "Weißen Hauses" verlinkt. Wenn man bei Google nun den Begriff "failure" eingibt, erscheint diese Webseite.


Außerdem entstanden im Netz inoffizielle Wettbewerbe, so genannte Suchmaschinen-Optimierungs-Wettstreite, bei der Begriffe wie "Schnitzelmitkartoffelsalat" oder "Hommingberger Gepardenforelle" (also Begriffe, die im Suchmaschinenindex noch nicht vorkamen) auf die höchstmögliche Position im Ranking gebracht werden sollten.


Grundprinzipien

  • Akualität
    Bei großen Suchmaschinen wird etwa alle 30 Tage eine Indexakualisierung vorgenommen.
  • Qualität
    Diese soll durch die Rankingfaktoren gewährleistet werden.
  • Verbesserung der Dokumentrepräsentation
    Einteilung der Dokumente in sinnvolle Felder bei der Aufbereitung, Hinzufügen weiterer Attribute für die Repräsentation der Dokumente,...


Probleme

  • Publikationsflut
    Das Web wächst schneller als die Suchmaschinen mit der derzeitigen Technik indexieren können. So wird es für die Suchmaschinen auch problematisch, immer auf dem aktuellsten Stand zu sein.
  • Invisible Web
    Der Teil des Webs, der über Suchmaschinen nicht auffindbar ist.
  • Kognitive Overload
    Wenn der Navigationsaufwand den Leseaufwand übersteigt, kann es zur Belastung der menschlichen Aufnahmefähigkeit kommen.
  • Spamming
    Webseiten-Betreiber versuchen, den Ranking-Algorithmus der Suchmaschinen zu überlisten, um eine bessere Platzierung für gewisse Suchanfragen zu bekommen.
  • Rechtliches
    Durch den unkontrollierten Input des Internets treten Probleme beim Urheberrecht auf (siehe Copyright und Internet). Außerdem sind bei international betriebenen Suchmaschinen die unterschiedlichen Gesetzgebungen der jeweiligen Länder zu beachten.


Suchmaschinenanbieter

Aufgrund der Komplexität des Webs scheint auf den ersten Blick ein gesunder Wettbewerb zwischen den Suchmaschinenanbietern zu bestehen, jedoch beherrschen nur wenige Anbieter den Markt.

Die größten vier sind in der unten angegebenen Tabelle aufgeführt. Yahoo hat durch den Aufkauf von "Alltheweb", "Altavista" und dem Suchtechnologie-Anbieter "Inktomi" seit 2004 eine eigene Suchmaschine. MSN hat seit 2003 eine eigene Suchtechnologie und Askjeeves betreibt durch den Aufkauf von "Teoma" seit 2003 eine eigene Suchmaschine.


Tabelle der Suchmaschinenanbieter.PNG

Usability und Nutzerforschung

Um zu überprüfen, inwieweit Standards für das Produkt Suchdienstleistung im Web existieren und wie diese Funktionalitäten bereits heute in die Angebote integriert sind, werden Usability-Tests für Suchmaschinen durchgeführt.

Dabei wird wie in einer Projektarbeit des Fachbereichs Informations- und Wissensmanagement (IuW) der Fachhochschule Darmstadt mit T-Online International AG (Weiterstadt) im März 2004 ein Kriterienkatalog mit unterschiedlichen Kategorien wie "Such- und Hilfefunktionen" oder "Zusatzdienste" erstellt, mit dem verschiedene Suchmaschinen dann überprüft wurden.

Ziel dieser Untersuchungen ist es, die Suchmaschinen so zu verbessern, dass der Nutzer möglichst schnell, einfach und umfassend zum Ergebnis kommt.


Außerdem führen die Suchmaschinenanbieter "Nutzerbefragungen" (Fragebögen, Telefoninterviews,...), "Laborexperimente" (Nutzer werden bei der Recherche direkt beobachtet) oder "Logfile-Analysen" (Anzahl der ausgewerteten Anfragen der Nutzer) durch, um sich zentral an die Bedürfnisse ihrer Nutzer zu orientieren.

Dabei stellte sich heraus, dass die Anfragen im Bereich "Technologie" und "Sex" rückgängig sind, wohingegen Anfragen im Bereich E-Commerce zunehmen.


Die Arten der Suchanfragen teilen sich wie folgt auf (400 zufällige Anfragen bei Altavista):

  • navigationsorientiert: 20-24,5%
    Der Nutzer versucht, eine bestimmte Webseite zu erreichen, von der er weiß bzw. vermutet, dass es sie gibt.
  • informationsorientiert: 39-48%
    Der Nutzer versucht, thematisch passende Dokumente zu finden.
  • transaktionsorientiert: 22-30%
    Für den Nutzer soll nach dem Auffinden eine Transaktion folgen (Download oder Kauf eines Produkts).


Links


Quellen


Literatur

  • Lewandowski, Dirk: Technologien zur Informationssuche im Internet, DGI (Hrsg.), Dinges&Frick GmbH, Wiesbaden (2005)
  • Fauldrath, Jens; Arne Kunisch (2005): Kooperative Evaluation der Usability von Suchmaschineninterfaces. IW&P 56(2005)1, 21-28
… weitere Daten zur Seite „Suchmaschinen im Web
Suchmaschinen bieten die Möglichkeit, im WWW über Suchbegriffe nach Informationen zu suchen. +