Suchmaschinen im Web: Unterschied zwischen den Versionen

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Zur Navigation springen Zur Suche springen
Zeile 38: Zeile 38:
 
*'''Metadaten'''
 
*'''Metadaten'''
 
*:Prinzipiell sind dies Daten, die Informationen über andere Daten enthalten. Sie sind in der [[HTML]] in so genannten ''Meta-Tags'' enthalten und geben Auskunft über Sprache, Autor, Unternehmen, Schlagwörter,..., die dann von den Suchmaschinen ausgewertet werden.
 
*:Prinzipiell sind dies Daten, die Informationen über andere Daten enthalten. Sie sind in der [[HTML]] in so genannten ''Meta-Tags'' enthalten und geben Auskunft über Sprache, Autor, Unternehmen, Schlagwörter,..., die dann von den Suchmaschinen ausgewertet werden.
*:Bsp.: [[Das Dublin Core Element Set|Dublin Core]] = Metadaten-Schema zur Beschreibung von Dokumenten und anderen Objekten im Internet, entstanden 1994 aus der ''DCMI'' (Dublin Core Metadata Initiative).
+
*:Bsp.: [[Dublin Core Element Set|Dublin Core]] = Metadaten-Schema zur Beschreibung von Dokumenten und anderen Objekten im Internet, entstanden 1994 aus der ''DCMI'' (Dublin Core Metadata Initiative).
  
 
*'''Clustering'''
 
*'''Clustering'''

Version vom 14. Mai 2007, 13:09 Uhr

Begriffserklärung

Suchmaschinen bieten die Möglichkeit, im WWW über Suchbegriffe nach Informationen zu suchen. Sie sind ein Recherchemittel des Information Retrieval (vgl. auch Information Retrieval im Web) und werden hierbei als Interface, d.h. als Schnittstelle zwischen Mensch und Computer, verwendet.

Vorgehensweise: Der Nutzer gibt einen Suchbegriff ein, wodurch die Suchmaschine in einem Ranking Verweise auf möglicherweise relevante Dokumente gibt, meist dargestellt mit Titel und einem kurzen Auszug des jeweiligen Dokuments.

Arten von Suchmaschinen

  • Universalsuchmaschine
    Geläufigste Art von Suchmaschinen; ihr Ziel ist es, - soweit möglich (siehe Invisible Web) - das gesamte WWW zu erfassen.
  • Spezialsuchmaschine
    Bezieht sich auf ein spezielles Themengebiet.
  • Archivsuchmaschine
    Speichert gefundene Web-Seiten auf eigenen Rechnern ab, um diese dauerhaft verfügbar zu machen.

Sonderfall Metasuchmaschine

Eine spezielle Art von Suchmaschine, bei der mehrere Suchdienste automatisch über eine Schnittstelle abgefragt werden. Sie besitzt keine eigene Datenbank.

Vorteil einer Metasuchmaschine ist der sehr hohe Recall sowie die große Netzabdeckung. Jedoch wird nur der gemeinsame Nenner an Suchoperatoren unterstützt, so dass die Qualität der Suchergebnisse unter Umständen auf die der am wenigsten effizienten Suchmaschine reduziert wird.


Aufbereitung von Webseiten durch die Suchmaschine

Web-Crawler durchkämmen automatisch über Links das Web, "sammeln" alle auffindbaren Dokumente ein (Crawling) und speichern sie unstrukturiert und unreflektiert in großen Datenbanken.

Dabei kann prinzipiell von einem einzigen Dokument ausgegangen werden. Nach der Erfassung dieses Dokuments werden die darin enthaltenen Links verfolgt, wodurch neue Dokumente gefunden werden. Diese werden wiederum erschlossen, enthaltene Links werden wiederum verfolgt.

Im Idealfall ließe sich durch dieses Verfahren das gesamte Web erschließen.


Die Aufbereitung geschieht mit Hilfe von:

  • Metadaten
    Prinzipiell sind dies Daten, die Informationen über andere Daten enthalten. Sie sind in der HTML in so genannten Meta-Tags enthalten und geben Auskunft über Sprache, Autor, Unternehmen, Schlagwörter,..., die dann von den Suchmaschinen ausgewertet werden.
    Bsp.: Dublin Core = Metadaten-Schema zur Beschreibung von Dokumenten und anderen Objekten im Internet, entstanden 1994 aus der DCMI (Dublin Core Metadata Initiative).
  • Clustering
    Ähnliche Dokumente werden nach Ermittlung der Treffermenge aufgrund ihrer gemeinsam vorkommenden Stichwörter in eigene Klassen zusammengeführt.
  • Stemming
    Wörter werden auf den Grundstamm reduziert, wodurch alle Formen eines Wortes gemeinsam gewertet werden.


Gängige Dokumenttypen:


Suchmethoden

Um die Suche zu verfeinern oder zu verbessern, kann der Nutzer auf verschiedene Suchoperatoren zurückgreifen, welche von Anbieter zu Anbieter unterschiedlich sind (siehe auch Syntax von Suchabfragen). Einige davon sind:

  • Bool'sche Logik
  • Adjacency-Funktion
  • Phrasensuche
  • Trunkierung
  • Suchraumeingrenzung (zeitlich, Format,...)
  • Relevance feedback
  • Fuzzy-Suche = Phonetische Suche nach Wörtern, die gleich klingen


Sortierung der Ergebnisse

Die Treffermenge wird nach Eingabe des Suchbegriffs in einem so genannten Ranking ausgewertet, bei dem die ersten Treffer die größte Relevanz für den Suchbegriff aufweisen sollten. Faktoren für diese Relevanzbeurteilung sind Wortgewichtung, Wortabstand, Position der Suchbegriffe oder Klickhäufigkeit.


Ein besonderer Aspekt der Relevanzbeurteilung ist die Linktopologie, von Google als PageRanking bezeichnet.

Sie bezieht sich auf die Linkstruktur des Webs, so dass jede Seite ein Gewicht hat, das umso größer ist, je mehr Seiten mit einem hohen eigenen Gewicht auf diese Seite verweisen. Das heißt, je mehr Links von anderen Seiten auf diese Webseite verweisen, desto höher ist die Positionierung im Ranking.


Negativer Aspekt daran ist, dass so genannte "Suchmaschinen-Optimierer" Backlinks für Webseiten erkaufen, damit diese möglichst hoch im Ranking positioniert werden. Somit rückt die Qualität bei der Relevanzbeurteilung vermehrt in den Hintergrund.


Ein weiteres negatives Beispiel ist das der "Google-Bombe": Google-Suchergebnisse werden für eine bestimmte Webseite durch vielfaches Setzen von Links mit einem vereinbarten Ankertext manipuliert. Gibt man diesen Ankertext nun als Suchbegriff ein, erscheint nicht nur die Seite mit dem Link, sondern auch die Seite, auf die der Link verweist. So haben mehrere Webseiten mit dem Ankertext "failure" die Homepage von "Michael Moore" verlinkt. Wenn man bei Google nun den Begriff "failure" eingibt, erscheint diese Webseite auf höchster Position im Ranking.


Außerdem entstanden im Netz inoffizielle Wettbewerbe, so genannte Suchmaschinen-Optimierungs-Wettstreite, bei der Begriffe wie "Schnitzelmitkartoffelsalat" oder "Hommingberger Gepardenforelle" (also Begriffe, die im Suchmaschinenindex noch nicht vorkamen) auf die höchstmögliche Position im Ranking gebracht werden sollten.


Grundprinzipien

  • Akualität
    Bei großen Suchmaschinen wird etwa alle 30 Tage eine Indexaktualisierung vorgenommen.
  • Qualität
    Diese soll durch die Rankingfaktoren gewährleistet werden.
  • Verbesserung der Dokumentrepräsentation
    Einteilung der Dokumente in sinnvolle Felder bei der Aufbereitung, Hinzufügen weiterer Attribute für die Repräsentation der Dokumente,...


Probleme

  • Publikationsflut
    Das Web wächst schneller als die Suchmaschinen mit der derzeitigen Technik indexieren können. So wird es für die Suchmaschinen auch problematisch, immer auf dem aktuellsten Stand zu sein.
  • Invisible Web
    Der Teil des Webs, der über Suchmaschinen nicht auffindbar ist.
  • Kognitive Overload
    Wenn der Navigationsaufwand den Leseaufwand übersteigt, kann es zur Belastung der menschlichen Aufnahmefähigkeit kommen.
  • Spamming
    Webseiten-Betreiber versuchen, den Ranking-Algorithmus der Suchmaschinen zu überlisten, um eine bessere Platzierung für gewisse Suchanfragen zu bekommen.
  • Rechtliches
    Durch den unkontrollierten Input des Internets treten Probleme beim Urheberrecht auf (siehe Copyright und Internet). Außerdem sind bei international betriebenen Suchmaschinen die unterschiedlichen Gesetzgebungen der jeweiligen Länder zu beachten.
  • Formale Sprache
    Für Suchmaschinen werden formale Sprachen benötigt, wenn sie effektiv genutzt werden sollen. Dies verhindert aber, dass es jedermann möglich ist, effektiv an gesuchte Informationen zu gelangen, da nicht jeder die passende Sprache beherrscht. Mit der Möglichkeit einer natürlichsprachlichen Suche würde sich dies beheben lassen (siehe Natürliche Sprache und Suchmaschinen).


Suchmaschinenanbieter

Aufgrund der Komplexität des Webs scheint auf den ersten Blick ein gesunder Wettbewerb zwischen den Suchmaschinenanbietern zu bestehen, jedoch beherrschen nur wenige den Markt.

Die größten vier sind in der unten angegebenen Tabelle aufgeführt. Yahoo hat durch den Aufkauf von "Alltheweb", "Altavista" und dem Suchtechnologie-Anbieter "Inktomi" seit 2004 eine eigene Suchmaschine. MSN hat seit 2003 eine eigene Suchtechnologie und Askjeeves betreibt durch den Aufkauf von "Teoma" seit 2003 eine eigene Suchmaschine.


Tabelle der Suchmaschinenanbieter.PNG

Quelle: Lewandowski, Dirk (2005): Technologien zur Informationssuche im Internet, DGI (Hrsg.), Dinges & Frick GmbH, Wiesbaden


Usability und Nutzerforschung

Um zu überprüfen, inwieweit Standards für das Produkt Suchdienstleistung im Web existieren und wie diese Funktionalitäten bereits heute in die Angebote integriert sind, werden Usability-Tests für Suchmaschinen durchgeführt.

Dabei wird, wie in einer Projektarbeit des Fachbereichs Informations- und Wissensmanagement (IuW) der Fachhochschule Darmstadt mit der T-Online International AG (Weiterstadt) im März 2004, ein Kriterienkatalog mit unterschiedlichen Kategorien wie "Such- und Hilfefunktionen" oder "Zusatzdienste" erstellt, mit dem verschiedene Suchmaschinen dann überprüft werden.

Ziel dieser Untersuchungen ist es, die Suchmaschinen so zu verbessern, dass der Nutzer möglichst schnell, einfach und umfassend zum Ergebnis kommt.


Außerdem führen die Suchmaschinenanbieter Nutzerbefragungen (Fragebögen, Telefoninterviews,...), "Laborexperimente" (Nutzer werden bei der Recherche direkt beobachtet) oder Logfile-Analysen (Anzahl der ausgewerteten Anfragen der Nutzer) durch, um sich zentral an den Bedürfnissen ihrer Nutzer zu orientieren.

Dabei stellte sich heraus, dass die Anfragen im Bereich "Technologie" und "Sex" rückgängig sind, wohingegen Anfragen im Bereich E-Commerce zunehmen.


Die Arten der Suchanfragen teilen sich wie folgt auf (400 zufällige Anfragen bei Altavista):

  • navigationsorientiert: 20-24,5 %
    Der Nutzer versucht, eine bestimmte Webseite zu erreichen, von der er weiß bzw. vermutet, dass es sie gibt.
  • informationsorientiert: 39-48 %
    Der Nutzer versucht, thematisch passende Dokumente zu finden.
  • transaktionsorientiert: 22-30 %
    Für den Nutzer soll nach dem Auffinden eine Transaktion folgen (Download oder Kauf eines Produkts).


Links


Quellen


Literatur

  • Lewandowski, Dirk (2005): Technologien zur Informationssuche im Internet, DGI (Hrsg.), Dinges & Frick GmbH, Wiesbaden
  • Fauldrath, Jens; Arne Kunisch (2005): Kooperative Evaluation der Usability von Suchmaschineninterfaces. IW & P, 21-28