Suchmaschinen im Web: Unterschied zwischen den Versionen

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Zur Navigation springen Zur Suche springen
Zeile 4: Zeile 4:
 
Suchmaschinen bieten die Möglichkeit, im [[Geschichte des WWW|WWW]] über Suchbegriffe nach Informationen zu suchen. Sie sind ein  Recherchemittel des [[Information Retrieval]] (vgl. auch [[Information Retrieval im Web]]) und werden hierbei als [[Interface Design (Software Ergonomie)|Interface]], d.h. als Schnittstelle zwischen Mensch und Computer verwendet.
 
Suchmaschinen bieten die Möglichkeit, im [[Geschichte des WWW|WWW]] über Suchbegriffe nach Informationen zu suchen. Sie sind ein  Recherchemittel des [[Information Retrieval]] (vgl. auch [[Information Retrieval im Web]]) und werden hierbei als [[Interface Design (Software Ergonomie)|Interface]], d.h. als Schnittstelle zwischen Mensch und Computer verwendet.
  
Vorgehensweise:
+
''Vorgehensweise'':
 
Der Nutzer gibt einen Suchbegriff ein, wodurch die Suchmaschine in einem [[Ranking]] Verweise auf möglicherweise relevante Dokumente gibt, meist dargestellt mit Titel und einem kurzen Auszug des jeweiligen Dokuments.
 
Der Nutzer gibt einen Suchbegriff ein, wodurch die Suchmaschine in einem [[Ranking]] Verweise auf möglicherweise relevante Dokumente gibt, meist dargestellt mit Titel und einem kurzen Auszug des jeweiligen Dokuments.
  
  
 
=== Arten von Suchmaschinen ===
 
=== Arten von Suchmaschinen ===
 +
  
 
*'''Universalsuchmaschine'''
 
*'''Universalsuchmaschine'''
*:Geläufigste Art von Suchmaschinen; ihr Ziel ist es, - soweit möglich (s. [[Invisible Web]]) - das gesamte WWW zu erfassen.
+
*:Geläufigste Art von Suchmaschinen; ihr Ziel ist es, - soweit möglich (siehe [[Invisible Web]]) - das gesamte WWW zu erfassen.
  
 
*'''Spezialsuchmaschine'''
 
*'''Spezialsuchmaschine'''
Zeile 17: Zeile 18:
  
 
*'''Archivsuchmaschine'''
 
*'''Archivsuchmaschine'''
*:Speichert gefundene web-Seiten auf eigenen Rechnern ab, um diese dauerhaft verfügbar zu machen.
+
*:Speichert gefundene Web-Seiten auf eigenen Rechnern ab, um diese dauerhaft verfügbar zu machen.
  
  
 
=== Metasuchmaschine ===
 
=== Metasuchmaschine ===
 +
  
 
Eine spezielle Art von Suchmaschine, bei der mehrere Suchdienste automatisch über eine Schnittstelle abgefragt werden. Sie besitzt keine eigene Datenbank.
 
Eine spezielle Art von Suchmaschine, bei der mehrere Suchdienste automatisch über eine Schnittstelle abgefragt werden. Sie besitzt keine eigene Datenbank.
Zeile 33: Zeile 35:
 
'''Web-Crawler''' durchkämmen automatisch über Links das Web, "sammeln" alle auffindbaren Dokumente ein ('''Crawling''') und speichern sie unstrukturiert und unreflektiert in großen Datenbanken.
 
'''Web-Crawler''' durchkämmen automatisch über Links das Web, "sammeln" alle auffindbaren Dokumente ein ('''Crawling''') und speichern sie unstrukturiert und unreflektiert in großen Datenbanken.
 
   
 
   
Dabei kann prinzipiell von einem einzigen Dokument ausgegangen werden. Nach der Erfassung dieses Dokuments werden die darin enthaltenen Links verfolgt, wodurch neue Dokumente gefunden werden. Diese werden wiederum erschlossen, enthaltene links werden wiederum verfolgt.
+
Dabei kann prinzipiell von einem einzigen Dokument ausgegangen werden. Nach der Erfassung dieses Dokuments werden die darin enthaltenen Links verfolgt, wodurch neue Dokumente gefunden werden. Diese werden wiederum erschlossen, enthaltene Links werden wiederum verfolgt.
  
 
Im Idealfall ließe sich durch dieses Verfahren das gesamte Web erschließen.
 
Im Idealfall ließe sich durch dieses Verfahren das gesamte Web erschließen.
Zeile 45: Zeile 47:
  
 
*'''Clustering'''
 
*'''Clustering'''
*:Ähnliche Dokumente werden nach Ermittlung der Treffermenge aufgrund ihrer gemeinsam vokommenden Stichwörter in eigene Klassen zusammengeführt.
+
*:Ähnliche Dokumente werden nach Ermittlung der Treffermenge aufgrund ihrer gemeinsam vorkommenden Stichwörter in eigene Klassen zusammengeführt.
  
 
*'''Stemming'''
 
*'''Stemming'''
*:Wörter werden auf den Grundstamm reduziert, wodurch alle Formen eines wortes gemeinsam gewertet werden.
+
*:Wörter werden auf den Grundstamm reduziert, wodurch alle Formen eines Wortes gemeinsam gewertet werden.
  
  
Zeile 77: Zeile 79:
  
  
Die Treffermenge wird nach Eingabe des Suchbegriffs in einem sogenannten [[Ranking]] ausgewertet, bei dem die ersten Treffer die größte Relevanz für den Suchbegriff aufweisen sollten. Faktoren für diese Relevanzbeurteilung sind Wortgewichtung, Wortabstand, Position der Suchbegriffe oder Klickhäufigkeit.
+
Die Treffermenge wird nach Eingabe des Suchbegriffs in einem so genannten [[Ranking]] ausgewertet, bei dem die ersten Treffer die größte Relevanz für den Suchbegriff aufweisen sollten. Faktoren für diese Relevanzbeurteilung sind Wortgewichtung, Wortabstand, Position der Suchbegriffe oder Klickhäufigkeit.
  
  
Zeile 89: Zeile 91:
 
Ein weiteres negatives Beispiel ist das der "Google-Bombe":                         
 
Ein weiteres negatives Beispiel ist das der "Google-Bombe":                         
 
Google-Suchergebnisse werden für eine bestimmte Webseite durch vielfaches Setzen von Links mit einem vereinbarten Ankertext manipuliert.
 
Google-Suchergebnisse werden für eine bestimmte Webseite durch vielfaches Setzen von Links mit einem vereinbarten Ankertext manipuliert.
Gibt man diesen Ankertext nun als Suchbegriff ein, erscheint nicht nur die Seite mit dem Link, sondern auch die Seite, auf den der Link verweist.
+
Gibt man diesen Ankertext nun als Suchbegriff ein, erscheint nicht nur die Seite mit dem Link, sondern auch die Seite, auf die der Link verweist.
So haben mehrere Webseiten mit dem Ankertext "failure" die Seite des "Weißen Hauses" verlinkt. Wenn man bei [http://www.google.de Google] nun den Begriff "failure" eingibt, erscheint diese Webseite.
+
So haben mehrere Webseiten mit dem Ankertext "failure" die Homepage von "Michael Moore" verlinkt. Wenn man bei [http://www.google.de Google] nun den Begriff "failure" eingibt, erscheint diese Webseite auf höchster Position im Ranking.
  
  
Zeile 101: Zeile 103:
  
 
*'''Akualität'''
 
*'''Akualität'''
*:Bei großen Suchmaschinen wird etwa alle 30 Tage eine Indexakualisierung vorgenommen.
+
*:Bei großen Suchmaschinen wird etwa alle 30 Tage eine Indexaktualisierung vorgenommen.
  
 
*'''Qualität'''
 
*'''Qualität'''
Zeile 134: Zeile 136:
 
*Formale Sprache
 
*Formale Sprache
 
*:Für Suchmaschinen werden formale Sprachen benötigt, wenn sie effektiv genutzt werden sollen. Dies verhindert aber, dass es jedermann möglich ist, effektiv an gesuchte Informationen zu gelangen, da nicht jeder die passende Sprache beherrscht. Mit der Möglichkeit einer natürlichsprachlichen Suche würde sich dies aufheben (siehe [[Natürliche Sprache und Suchmaschinen]]).
 
*:Für Suchmaschinen werden formale Sprachen benötigt, wenn sie effektiv genutzt werden sollen. Dies verhindert aber, dass es jedermann möglich ist, effektiv an gesuchte Informationen zu gelangen, da nicht jeder die passende Sprache beherrscht. Mit der Möglichkeit einer natürlichsprachlichen Suche würde sich dies aufheben (siehe [[Natürliche Sprache und Suchmaschinen]]).
 +
 +
  
 
== Suchmaschinenanbieter ==
 
== Suchmaschinenanbieter ==
  
  
Aufgrund der Komplexität des Webs scheint auf den ersten Blick ein gesunder Wettbewerb zwischen den Suchmaschinenanbietern zu bestehen, jedoch beherrschen nur wenige Anbieter den Markt.
+
Aufgrund der Komplexität des Webs scheint auf den ersten Blick ein gesunder Wettbewerb zwischen den Suchmaschinenanbietern zu bestehen, jedoch beherrschen nur wenige den Markt.
  
 
Die größten vier sind in der unten angegebenen Tabelle aufgeführt. [http://www.yahoo.de Yahoo] hat durch den Aufkauf von "Alltheweb", "Altavista" und dem Suchtechnologie-Anbieter "Inktomi" seit 2004 eine eigene Suchmaschine. [http://www.msn.de MSN] hat seit 2003 eine eigene Suchtechnologie und [http://www.askjeeves.com Askjeeves] betreibt durch den Aufkauf von "Teoma" seit 2003 eine eigene Suchmaschine.
 
Die größten vier sind in der unten angegebenen Tabelle aufgeführt. [http://www.yahoo.de Yahoo] hat durch den Aufkauf von "Alltheweb", "Altavista" und dem Suchtechnologie-Anbieter "Inktomi" seit 2004 eine eigene Suchmaschine. [http://www.msn.de MSN] hat seit 2003 eine eigene Suchtechnologie und [http://www.askjeeves.com Askjeeves] betreibt durch den Aufkauf von "Teoma" seit 2003 eine eigene Suchmaschine.
Zeile 144: Zeile 148:
  
 
[[Bild:Tabelle_der_Suchmaschinenanbieter.PNG]]
 
[[Bild:Tabelle_der_Suchmaschinenanbieter.PNG]]
 +
 +
  
 
== Usability und Nutzerforschung ==
 
== Usability und Nutzerforschung ==
Zeile 155: Zeile 161:
  
  
Außerdem führen die Suchmaschinenanbieter "Nutzerbefragungen" (Fragebögen, Telefoninterviews,...), "Laborexperimente" (Nutzer werden bei der Recherche direkt beobachtet) oder "Logfile-Analysen" (Anzahl der ausgewerteten Anfragen der Nutzer) durch, um sich zentral an die Bedürfnisse ihrer Nutzer zu orientieren.
+
Außerdem führen die Suchmaschinenanbieter "Nutzerbefragungen" (Fragebögen, Telefoninterviews,...), "Laborexperimente" (Nutzer werden bei der Recherche direkt beobachtet) oder "Logfile-Analysen" (Anzahl der ausgewerteten Anfragen der Nutzer) durch, um sich zentral an den Bedürfnissen ihrer Nutzer zu orientieren.
  
 
Dabei stellte sich heraus, dass die Anfragen im Bereich "Technologie" und "Sex" rückgängig sind, wohingegen Anfragen im Bereich [[E-Commerce]] zunehmen.
 
Dabei stellte sich heraus, dass die Anfragen im Bereich "Technologie" und "Sex" rückgängig sind, wohingegen Anfragen im Bereich [[E-Commerce]] zunehmen.
Zeile 162: Zeile 168:
 
Die Arten der Suchanfragen teilen sich wie folgt auf (400 zufällige Anfragen bei [http://www.altavista.de Altavista]):
 
Die Arten der Suchanfragen teilen sich wie folgt auf (400 zufällige Anfragen bei [http://www.altavista.de Altavista]):
  
*navigationsorientiert: 20-24,5%
+
*navigationsorientiert: 20-24,5 %
 
*:Der Nutzer versucht, eine bestimmte Webseite zu erreichen, von der er weiß bzw. vermutet, dass es sie gibt.
 
*:Der Nutzer versucht, eine bestimmte Webseite zu erreichen, von der er weiß bzw. vermutet, dass es sie gibt.
  
*informationsorientiert: 39-48%
+
*informationsorientiert: 39-48 %
 
*:Der Nutzer versucht, thematisch passende Dokumente zu finden.
 
*:Der Nutzer versucht, thematisch passende Dokumente zu finden.
  
*transaktionsorientiert: 22-30%
+
*transaktionsorientiert: 22-30 %
 
*:Für den Nutzer soll nach dem Auffinden eine Transaktion folgen (Download oder Kauf eines Produkts).   
 
*:Für den Nutzer soll nach dem Auffinden eine Transaktion folgen (Download oder Kauf eines Produkts).   
  
Zeile 189: Zeile 195:
  
 
*Bool'sches Modell: http://www.boolistic.de
 
*Bool'sches Modell: http://www.boolistic.de
 +
  
  

Version vom 31. Januar 2006, 17:16 Uhr

Begriffserklärung

Suchmaschinen bieten die Möglichkeit, im WWW über Suchbegriffe nach Informationen zu suchen. Sie sind ein Recherchemittel des Information Retrieval (vgl. auch Information Retrieval im Web) und werden hierbei als Interface, d.h. als Schnittstelle zwischen Mensch und Computer verwendet.

Vorgehensweise: Der Nutzer gibt einen Suchbegriff ein, wodurch die Suchmaschine in einem Ranking Verweise auf möglicherweise relevante Dokumente gibt, meist dargestellt mit Titel und einem kurzen Auszug des jeweiligen Dokuments.


Arten von Suchmaschinen

  • Universalsuchmaschine
    Geläufigste Art von Suchmaschinen; ihr Ziel ist es, - soweit möglich (siehe Invisible Web) - das gesamte WWW zu erfassen.
  • Spezialsuchmaschine
    Bezieht sich auf ein spezielles Themengebiet.
  • Archivsuchmaschine
    Speichert gefundene Web-Seiten auf eigenen Rechnern ab, um diese dauerhaft verfügbar zu machen.


Metasuchmaschine

Eine spezielle Art von Suchmaschine, bei der mehrere Suchdienste automatisch über eine Schnittstelle abgefragt werden. Sie besitzt keine eigene Datenbank.

Vorteil einer Metasuchmaschine ist der sehr hohe Recall sowie die große Netzabdeckung. Jedoch wird nur der gemeinsame Nenner an Suchoperatoren unterstützt, so dass die Qualität der Suchergebnisse unter Umständen auf die der schlechtesten unterliegenden Suchmaschine reduziert wird.


Aufbereitung von Webseiten durch die Suchmaschine

Web-Crawler durchkämmen automatisch über Links das Web, "sammeln" alle auffindbaren Dokumente ein (Crawling) und speichern sie unstrukturiert und unreflektiert in großen Datenbanken.

Dabei kann prinzipiell von einem einzigen Dokument ausgegangen werden. Nach der Erfassung dieses Dokuments werden die darin enthaltenen Links verfolgt, wodurch neue Dokumente gefunden werden. Diese werden wiederum erschlossen, enthaltene Links werden wiederum verfolgt.

Im Idealfall ließe sich durch dieses Verfahren das gesamte Web erschließen.


Die Aufbereitung geschieht mit Hilfe von:

  • Metadaten
    Prinzipiell sind dies Daten, die Informationen über andere Daten enthalten. Sie sind in der HTML in so genannten Meta-Tags enthalten und geben Auskunft über Sprache, Autor, Unternehmen, Schlagwörter,..., die dann von den Suchmaschinen ausgewertet werden.
    Bsp.: Dublin Core = Metadaten-Schema zur Beschreibung von Dokumenten und anderen Objekten im Internet, entstanden 1994 aus der DCMI (Dublin Core Metadata Initiative).
  • Clustering
    Ähnliche Dokumente werden nach Ermittlung der Treffermenge aufgrund ihrer gemeinsam vorkommenden Stichwörter in eigene Klassen zusammengeführt.
  • Stemming
    Wörter werden auf den Grundstamm reduziert, wodurch alle Formen eines Wortes gemeinsam gewertet werden.


Gängige Dokumenttypen:


Suchmethoden

Um die Suche zu verfeinern oder zu verbessern, kann der Nutzer auf verschiedene Suchoperatoren zurückgreifen, welche von Anbieter zu Anbieter unterschiedlich sind (siehe auch Syntax von Suchabfragen). Einige davon sind:

  • Bool'sche Logik
  • Adjacency-Funktion
  • Phrasensuche
  • Trunkierung
  • Suchraumeingrenzung (zeitlich, Format,...)
  • Relevance feedback
  • Fuzzy-Suche = Phonetische Suche nach Wörtern, die gleich klingen


Sortierung der Ergebnisse

Die Treffermenge wird nach Eingabe des Suchbegriffs in einem so genannten Ranking ausgewertet, bei dem die ersten Treffer die größte Relevanz für den Suchbegriff aufweisen sollten. Faktoren für diese Relevanzbeurteilung sind Wortgewichtung, Wortabstand, Position der Suchbegriffe oder Klickhäufigkeit.


Ein besonderer Aspekt der Relevanzbeurteilung ist die Linktopologie, von Google als PageRanking bezeichnet.

Sie bezieht sich auf die Linkstruktur des Webs, so dass jede Seite ein Gewicht hat, das umso größer ist, je mehr Seiten mit einem hohen eigenen Gewicht auf diese Seite verweisen. Das heißt, je mehr Links von anderen Seiten auf diese Webseite verweisen, desto höher ist die Positionierung im Ranking.


Negativer Aspekt daran ist, dass so genannte "Suchmaschinen-Optimierer" Backlinks für Webseiten erkaufen, damit diese möglichst hoch im Ranking positioniert werden. Somit rückt die Qualität bei der Relevanzbeurteilung vermehrt in den Hintergrund.

Ein weiteres negatives Beispiel ist das der "Google-Bombe": Google-Suchergebnisse werden für eine bestimmte Webseite durch vielfaches Setzen von Links mit einem vereinbarten Ankertext manipuliert. Gibt man diesen Ankertext nun als Suchbegriff ein, erscheint nicht nur die Seite mit dem Link, sondern auch die Seite, auf die der Link verweist. So haben mehrere Webseiten mit dem Ankertext "failure" die Homepage von "Michael Moore" verlinkt. Wenn man bei Google nun den Begriff "failure" eingibt, erscheint diese Webseite auf höchster Position im Ranking.


Außerdem entstanden im Netz inoffizielle Wettbewerbe, so genannte Suchmaschinen-Optimierungs-Wettstreite, bei der Begriffe wie "Schnitzelmitkartoffelsalat" oder "Hommingberger Gepardenforelle" (also Begriffe, die im Suchmaschinenindex noch nicht vorkamen) auf die höchstmögliche Position im Ranking gebracht werden sollten.


Grundprinzipien

  • Akualität
    Bei großen Suchmaschinen wird etwa alle 30 Tage eine Indexaktualisierung vorgenommen.
  • Qualität
    Diese soll durch die Rankingfaktoren gewährleistet werden.
  • Verbesserung der Dokumentrepräsentation
    Einteilung der Dokumente in sinnvolle Felder bei der Aufbereitung, Hinzufügen weiterer Attribute für die Repräsentation der Dokumente,...


Probleme

  • Publikationsflut
    Das Web wächst schneller als die Suchmaschinen mit der derzeitigen Technik indexieren können. So wird es für die Suchmaschinen auch problematisch, immer auf dem aktuellsten Stand zu sein.
  • Invisible Web
    Der Teil des Webs, der über Suchmaschinen nicht auffindbar ist.
  • Kognitive Overload
    Wenn der Navigationsaufwand den Leseaufwand übersteigt, kann es zur Belastung der menschlichen Aufnahmefähigkeit kommen.
  • Spamming
    Webseiten-Betreiber versuchen, den Ranking-Algorithmus der Suchmaschinen zu überlisten, um eine bessere Platzierung für gewisse Suchanfragen zu bekommen.
  • Rechtliches
    Durch den unkontrollierten Input des Internets treten Probleme beim Urheberrecht auf (siehe Copyright und Internet). Außerdem sind bei international betriebenen Suchmaschinen die unterschiedlichen Gesetzgebungen der jeweiligen Länder zu beachten.
  • Formale Sprache
    Für Suchmaschinen werden formale Sprachen benötigt, wenn sie effektiv genutzt werden sollen. Dies verhindert aber, dass es jedermann möglich ist, effektiv an gesuchte Informationen zu gelangen, da nicht jeder die passende Sprache beherrscht. Mit der Möglichkeit einer natürlichsprachlichen Suche würde sich dies aufheben (siehe Natürliche Sprache und Suchmaschinen).


Suchmaschinenanbieter

Aufgrund der Komplexität des Webs scheint auf den ersten Blick ein gesunder Wettbewerb zwischen den Suchmaschinenanbietern zu bestehen, jedoch beherrschen nur wenige den Markt.

Die größten vier sind in der unten angegebenen Tabelle aufgeführt. Yahoo hat durch den Aufkauf von "Alltheweb", "Altavista" und dem Suchtechnologie-Anbieter "Inktomi" seit 2004 eine eigene Suchmaschine. MSN hat seit 2003 eine eigene Suchtechnologie und Askjeeves betreibt durch den Aufkauf von "Teoma" seit 2003 eine eigene Suchmaschine.


Tabelle der Suchmaschinenanbieter.PNG


Usability und Nutzerforschung

Um zu überprüfen, inwieweit Standards für das Produkt Suchdienstleistung im Web existieren und wie diese Funktionalitäten bereits heute in die Angebote integriert sind, werden Usability-Tests für Suchmaschinen durchgeführt.

Dabei wird wie in einer Projektarbeit des Fachbereichs Informations- und Wissensmanagement (IuW) der Fachhochschule Darmstadt mit T-Online International AG (Weiterstadt) im März 2004 ein Kriterienkatalog mit unterschiedlichen Kategorien wie "Such- und Hilfefunktionen" oder "Zusatzdienste" erstellt, mit dem verschiedene Suchmaschinen dann überprüft wurden.

Ziel dieser Untersuchungen ist es, die Suchmaschinen so zu verbessern, dass der Nutzer möglichst schnell, einfach und umfassend zum Ergebnis kommt.


Außerdem führen die Suchmaschinenanbieter "Nutzerbefragungen" (Fragebögen, Telefoninterviews,...), "Laborexperimente" (Nutzer werden bei der Recherche direkt beobachtet) oder "Logfile-Analysen" (Anzahl der ausgewerteten Anfragen der Nutzer) durch, um sich zentral an den Bedürfnissen ihrer Nutzer zu orientieren.

Dabei stellte sich heraus, dass die Anfragen im Bereich "Technologie" und "Sex" rückgängig sind, wohingegen Anfragen im Bereich E-Commerce zunehmen.


Die Arten der Suchanfragen teilen sich wie folgt auf (400 zufällige Anfragen bei Altavista):

  • navigationsorientiert: 20-24,5 %
    Der Nutzer versucht, eine bestimmte Webseite zu erreichen, von der er weiß bzw. vermutet, dass es sie gibt.
  • informationsorientiert: 39-48 %
    Der Nutzer versucht, thematisch passende Dokumente zu finden.
  • transaktionsorientiert: 22-30 %
    Für den Nutzer soll nach dem Auffinden eine Transaktion folgen (Download oder Kauf eines Produkts).


Links


Quellen


Literatur

  • Lewandowski, Dirk: Technologien zur Informationssuche im Internet, DGI (Hrsg.), Dinges&Frick GmbH, Wiesbaden (2005)
  • Fauldrath, Jens; Arne Kunisch (2005): Kooperative Evaluation der Usability von Suchmaschineninterfaces. IW&P 56(2005)1, 21-28
… weitere Daten zur Seite „Suchmaschinen im Web
Suchmaschinen bieten die Möglichkeit, im WWW über Suchbegriffe nach Informationen zu suchen. +