Suchmaschinen im Web: Unterschied zwischen den Versionen
(14 dazwischenliegende Versionen von 6 Benutzern werden nicht angezeigt) | |||
Zeile 1: | Zeile 1: | ||
− | + | [[definition::Suchmaschinen bieten die Möglichkeit, im [[WWW]] über Suchbegriffe nach Informationen zu suchen.]] Sie sind ein Recherchemittel des [[Information Retrieval]] (vgl. auch [[Information Retrieval im Web]]) und werden hierbei als Interface, d.h. als [[Mensch-Computer-Interaktion|Schnittstelle zwischen Mensch und Computer]], verwendet. Der Nutzer gibt einen Suchbegriff ein, wodurch die Suchmaschine in einem [[Ranking]] Verweise auf möglicherweise relevante Dokumente gibt, meist dargestellt mit Titel und einem kurzen Auszug des jeweiligen Dokuments. | |
− | |||
− | Suchmaschinen bieten die Möglichkeit, im [[ | ||
− | |||
− | |||
− | Der Nutzer gibt einen Suchbegriff ein, wodurch die Suchmaschine in einem [[Ranking]] Verweise auf möglicherweise relevante Dokumente gibt, meist dargestellt mit Titel und einem kurzen Auszug des jeweiligen Dokuments. | ||
=== Arten von Suchmaschinen === | === Arten von Suchmaschinen === | ||
Zeile 22: | Zeile 17: | ||
Vorteil einer ''Metasuchmaschine'' ist der sehr hohe [[Information Retrieval#Bewertung von Information Retrieval Modellen|Recall]] sowie die große Netzabdeckung. Jedoch wird nur der gemeinsame Nenner an [[Suchoperatoren]] unterstützt, so dass die Qualität der Suchergebnisse unter Umständen auf die der am wenigsten effizienten Suchmaschine reduziert wird. | Vorteil einer ''Metasuchmaschine'' ist der sehr hohe [[Information Retrieval#Bewertung von Information Retrieval Modellen|Recall]] sowie die große Netzabdeckung. Jedoch wird nur der gemeinsame Nenner an [[Suchoperatoren]] unterstützt, so dass die Qualität der Suchergebnisse unter Umständen auf die der am wenigsten effizienten Suchmaschine reduziert wird. | ||
− | |||
== Aufbereitung von Webseiten durch die Suchmaschine == | == Aufbereitung von Webseiten durch die Suchmaschine == | ||
− | |||
'''Web-Crawler''' durchkämmen automatisch über Links das Web, "sammeln" alle auffindbaren Dokumente ein ('''Crawling''') und speichern sie unstrukturiert und unreflektiert in großen Datenbanken. | '''Web-Crawler''' durchkämmen automatisch über Links das Web, "sammeln" alle auffindbaren Dokumente ein ('''Crawling''') und speichern sie unstrukturiert und unreflektiert in großen Datenbanken. | ||
Zeile 32: | Zeile 25: | ||
Im Idealfall ließe sich durch dieses Verfahren das gesamte Web erschließen. | Im Idealfall ließe sich durch dieses Verfahren das gesamte Web erschließen. | ||
− | |||
Die Aufbereitung geschieht mit Hilfe von: | Die Aufbereitung geschieht mit Hilfe von: | ||
Zeile 38: | Zeile 30: | ||
*'''Metadaten''' | *'''Metadaten''' | ||
*:Prinzipiell sind dies Daten, die Informationen über andere Daten enthalten. Sie sind in der [[HTML]] in so genannten ''Meta-Tags'' enthalten und geben Auskunft über Sprache, Autor, Unternehmen, Schlagwörter,..., die dann von den Suchmaschinen ausgewertet werden. | *:Prinzipiell sind dies Daten, die Informationen über andere Daten enthalten. Sie sind in der [[HTML]] in so genannten ''Meta-Tags'' enthalten und geben Auskunft über Sprache, Autor, Unternehmen, Schlagwörter,..., die dann von den Suchmaschinen ausgewertet werden. | ||
− | *:Bsp.: [[ | + | *:Bsp.: [[Dublin Core Element Set|Dublin Core]] = Metadaten-Schema zur Beschreibung von Dokumenten und anderen Objekten im Internet, entstanden 1994 aus der ''DCMI'' (Dublin Core Metadata Initiative). |
*'''Clustering''' | *'''Clustering''' | ||
Zeile 45: | Zeile 37: | ||
*'''Stemming''' | *'''Stemming''' | ||
*:Wörter werden auf den Grundstamm reduziert, wodurch alle Formen eines Wortes gemeinsam gewertet werden. | *:Wörter werden auf den Grundstamm reduziert, wodurch alle Formen eines Wortes gemeinsam gewertet werden. | ||
− | |||
Gängige Dokumenttypen: | Gängige Dokumenttypen: | ||
Zeile 52: | Zeile 43: | ||
*[[PDF]] | *[[PDF]] | ||
*[[PDF, Word & Co.|Word-Dokumente]] | *[[PDF, Word & Co.|Word-Dokumente]] | ||
− | |||
− | |||
== Suchmethoden == | == Suchmethoden == | ||
− | |||
Um die Suche zu verfeinern oder zu verbessern, kann der Nutzer auf verschiedene [[Suchoperatoren]] zurückgreifen, welche von Anbieter zu Anbieter unterschiedlich sind (siehe auch [[Syntax von Suchabfragen]]). Einige davon sind: | Um die Suche zu verfeinern oder zu verbessern, kann der Nutzer auf verschiedene [[Suchoperatoren]] zurückgreifen, welche von Anbieter zu Anbieter unterschiedlich sind (siehe auch [[Syntax von Suchabfragen]]). Einige davon sind: | ||
Zeile 65: | Zeile 53: | ||
*Trunkierung | *Trunkierung | ||
*Suchraumeingrenzung (zeitlich, Format,...) | *Suchraumeingrenzung (zeitlich, Format,...) | ||
− | *Relevance | + | *[[Relevance Feedback]] |
*Fuzzy-Suche = Phonetische Suche nach Wörtern, die gleich klingen | *Fuzzy-Suche = Phonetische Suche nach Wörtern, die gleich klingen | ||
− | |||
− | |||
== Sortierung der Ergebnisse == | == Sortierung der Ergebnisse == | ||
− | |||
Die Treffermenge wird nach Eingabe des Suchbegriffs in einem so genannten [[Ranking]] ausgewertet, bei dem die ersten Treffer die größte Relevanz für den Suchbegriff aufweisen sollten. Faktoren für diese Relevanzbeurteilung sind Wortgewichtung, Wortabstand, Position der Suchbegriffe oder Klickhäufigkeit. | Die Treffermenge wird nach Eingabe des Suchbegriffs in einem so genannten [[Ranking]] ausgewertet, bei dem die ersten Treffer die größte Relevanz für den Suchbegriff aufweisen sollten. Faktoren für diese Relevanzbeurteilung sind Wortgewichtung, Wortabstand, Position der Suchbegriffe oder Klickhäufigkeit. | ||
− | |||
Ein besonderer Aspekt der Relevanzbeurteilung ist die '''Linktopologie''', von [http://www.google.de Google] als '''PageRanking''' bezeichnet. | Ein besonderer Aspekt der Relevanzbeurteilung ist die '''Linktopologie''', von [http://www.google.de Google] als '''PageRanking''' bezeichnet. | ||
Sie bezieht sich auf die Linkstruktur des Webs, so dass jede Seite ein Gewicht hat, das umso größer ist, je mehr Seiten mit einem hohen eigenen Gewicht auf diese Seite verweisen. Das heißt, je mehr Links von anderen Seiten auf diese Webseite verweisen, desto höher ist die Positionierung im Ranking. | Sie bezieht sich auf die Linkstruktur des Webs, so dass jede Seite ein Gewicht hat, das umso größer ist, je mehr Seiten mit einem hohen eigenen Gewicht auf diese Seite verweisen. Das heißt, je mehr Links von anderen Seiten auf diese Webseite verweisen, desto höher ist die Positionierung im Ranking. | ||
− | |||
Negativer Aspekt daran ist, dass so genannte "Suchmaschinen-Optimierer" ''Backlinks'' für Webseiten erkaufen, damit diese möglichst hoch im Ranking positioniert werden. Somit rückt die Qualität bei der Relevanzbeurteilung vermehrt in den Hintergrund. | Negativer Aspekt daran ist, dass so genannte "Suchmaschinen-Optimierer" ''Backlinks'' für Webseiten erkaufen, damit diese möglichst hoch im Ranking positioniert werden. Somit rückt die Qualität bei der Relevanzbeurteilung vermehrt in den Hintergrund. | ||
− | |||
Ein weiteres negatives Beispiel ist das der "Google-Bombe": | Ein weiteres negatives Beispiel ist das der "Google-Bombe": | ||
Zeile 88: | Zeile 70: | ||
Gibt man diesen Ankertext nun als Suchbegriff ein, erscheint nicht nur die Seite mit dem Link, sondern auch die Seite, auf die der Link verweist. | Gibt man diesen Ankertext nun als Suchbegriff ein, erscheint nicht nur die Seite mit dem Link, sondern auch die Seite, auf die der Link verweist. | ||
So haben mehrere Webseiten mit dem Ankertext "failure" die Homepage von "Michael Moore" verlinkt. Wenn man bei [http://www.google.de Google] nun den Begriff "failure" eingibt, erscheint diese Webseite auf höchster Position im Ranking. | So haben mehrere Webseiten mit dem Ankertext "failure" die Homepage von "Michael Moore" verlinkt. Wenn man bei [http://www.google.de Google] nun den Begriff "failure" eingibt, erscheint diese Webseite auf höchster Position im Ranking. | ||
− | |||
Außerdem entstanden im Netz inoffizielle Wettbewerbe, so genannte Suchmaschinen-Optimierungs-Wettstreite, bei der Begriffe wie "Schnitzelmitkartoffelsalat" oder "Hommingberger Gepardenforelle" (also Begriffe, die im Suchmaschinenindex noch nicht vorkamen) auf die höchstmögliche Position im Ranking gebracht werden sollten. | Außerdem entstanden im Netz inoffizielle Wettbewerbe, so genannte Suchmaschinen-Optimierungs-Wettstreite, bei der Begriffe wie "Schnitzelmitkartoffelsalat" oder "Hommingberger Gepardenforelle" (also Begriffe, die im Suchmaschinenindex noch nicht vorkamen) auf die höchstmögliche Position im Ranking gebracht werden sollten. | ||
− | |||
− | |||
== Grundprinzipien == | == Grundprinzipien == | ||
− | |||
*'''Akualität''' | *'''Akualität''' | ||
Zeile 105: | Zeile 83: | ||
*'''Verbesserung der Dokumentrepräsentation''' | *'''Verbesserung der Dokumentrepräsentation''' | ||
*:Einteilung der Dokumente in sinnvolle Felder bei der Aufbereitung, Hinzufügen weiterer Attribute für die Repräsentation der Dokumente,... | *:Einteilung der Dokumente in sinnvolle Felder bei der Aufbereitung, Hinzufügen weiterer Attribute für die Repräsentation der Dokumente,... | ||
− | |||
− | |||
== Probleme == | == Probleme == | ||
− | |||
*[[Publikationsflut]] | *[[Publikationsflut]] | ||
Zeile 131: | Zeile 106: | ||
*Formale Sprache | *Formale Sprache | ||
*:Für Suchmaschinen werden formale Sprachen benötigt, wenn sie effektiv genutzt werden sollen. Dies verhindert aber, dass es jedermann möglich ist, effektiv an gesuchte Informationen zu gelangen, da nicht jeder die passende Sprache beherrscht. Mit der Möglichkeit einer natürlichsprachlichen Suche würde sich dies beheben lassen (siehe [[Natürliche Sprache und Suchmaschinen]]). | *:Für Suchmaschinen werden formale Sprachen benötigt, wenn sie effektiv genutzt werden sollen. Dies verhindert aber, dass es jedermann möglich ist, effektiv an gesuchte Informationen zu gelangen, da nicht jeder die passende Sprache beherrscht. Mit der Möglichkeit einer natürlichsprachlichen Suche würde sich dies beheben lassen (siehe [[Natürliche Sprache und Suchmaschinen]]). | ||
− | |||
− | |||
== Suchmaschinenanbieter == | == Suchmaschinenanbieter == | ||
− | + | Aufgrund der Komplexität des Webs scheint auf den ersten Blick ein gesunder [[Geschäftsmodelle von Suchmaschinen|Wettbewerb zwischen den Suchmaschinenanbietern]] zu bestehen, jedoch beherrschen nur wenige den Markt. | |
− | Aufgrund der Komplexität des Webs scheint auf den ersten Blick ein gesunder Wettbewerb zwischen den Suchmaschinenanbietern zu bestehen, jedoch beherrschen nur wenige den Markt. | ||
Die größten vier sind in der unten angegebenen Tabelle aufgeführt. [http://www.yahoo.de Yahoo] hat durch den Aufkauf von "Alltheweb", "Altavista" und dem Suchtechnologie-Anbieter "Inktomi" seit 2004 eine eigene Suchmaschine. [http://www.msn.de MSN] hat seit 2003 eine eigene Suchtechnologie und [http://www.askjeeves.com Askjeeves] betreibt durch den Aufkauf von "Teoma" seit 2003 eine eigene Suchmaschine. | Die größten vier sind in der unten angegebenen Tabelle aufgeführt. [http://www.yahoo.de Yahoo] hat durch den Aufkauf von "Alltheweb", "Altavista" und dem Suchtechnologie-Anbieter "Inktomi" seit 2004 eine eigene Suchmaschine. [http://www.msn.de MSN] hat seit 2003 eine eigene Suchtechnologie und [http://www.askjeeves.com Askjeeves] betreibt durch den Aufkauf von "Teoma" seit 2003 eine eigene Suchmaschine. | ||
− | |||
[[Bild:Tabelle_der_Suchmaschinenanbieter.PNG]] | [[Bild:Tabelle_der_Suchmaschinenanbieter.PNG]] | ||
''Quelle: Lewandowski, Dirk (2005): Technologien zur Informationssuche im Internet, DGI (Hrsg.), Dinges & Frick GmbH, Wiesbaden'' | ''Quelle: Lewandowski, Dirk (2005): Technologien zur Informationssuche im Internet, DGI (Hrsg.), Dinges & Frick GmbH, Wiesbaden'' | ||
− | |||
== Usability und Nutzerforschung == | == Usability und Nutzerforschung == | ||
− | |||
Um zu überprüfen, inwieweit Standards für das Produkt Suchdienstleistung im Web existieren und wie diese Funktionalitäten bereits heute in die Angebote integriert sind, werden [[Usability]]-Tests für Suchmaschinen durchgeführt. | Um zu überprüfen, inwieweit Standards für das Produkt Suchdienstleistung im Web existieren und wie diese Funktionalitäten bereits heute in die Angebote integriert sind, werden [[Usability]]-Tests für Suchmaschinen durchgeführt. | ||
Zeile 155: | Zeile 124: | ||
Ziel dieser Untersuchungen ist es, die Suchmaschinen so zu verbessern, dass der Nutzer möglichst schnell, einfach und umfassend zum Ergebnis kommt. | Ziel dieser Untersuchungen ist es, die Suchmaschinen so zu verbessern, dass der Nutzer möglichst schnell, einfach und umfassend zum Ergebnis kommt. | ||
− | |||
Außerdem führen die Suchmaschinenanbieter Nutzerbefragungen (Fragebögen, Telefoninterviews,...), "Laborexperimente" (Nutzer werden bei der Recherche direkt beobachtet) oder Logfile-Analysen (Anzahl der ausgewerteten Anfragen der Nutzer) durch, um sich zentral an den Bedürfnissen ihrer Nutzer zu orientieren. | Außerdem führen die Suchmaschinenanbieter Nutzerbefragungen (Fragebögen, Telefoninterviews,...), "Laborexperimente" (Nutzer werden bei der Recherche direkt beobachtet) oder Logfile-Analysen (Anzahl der ausgewerteten Anfragen der Nutzer) durch, um sich zentral an den Bedürfnissen ihrer Nutzer zu orientieren. | ||
Dabei stellte sich heraus, dass die Anfragen im Bereich "Technologie" und "Sex" rückgängig sind, wohingegen Anfragen im Bereich [[E-Commerce]] zunehmen. | Dabei stellte sich heraus, dass die Anfragen im Bereich "Technologie" und "Sex" rückgängig sind, wohingegen Anfragen im Bereich [[E-Commerce]] zunehmen. | ||
− | |||
Die Arten der Suchanfragen teilen sich wie folgt auf (400 zufällige Anfragen bei [http://www.altavista.de Altavista]): | Die Arten der Suchanfragen teilen sich wie folgt auf (400 zufällige Anfragen bei [http://www.altavista.de Altavista]): | ||
Zeile 173: | Zeile 140: | ||
*:Für den Nutzer soll nach dem Auffinden eine Transaktion folgen (Download oder Kauf eines Produkts). | *:Für den Nutzer soll nach dem Auffinden eine Transaktion folgen (Download oder Kauf eines Produkts). | ||
+ | == Links == | ||
− | |||
− | |||
*Suchmaschinen | *Suchmaschinen | ||
*:*[http://www.google.de Google] | *:*[http://www.google.de Google] | ||
Zeile 190: | Zeile 156: | ||
*Bool'sches Modell: http://www.boolistic.de | *Bool'sches Modell: http://www.boolistic.de | ||
+ | == Quellen == | ||
+ | |||
+ | *Fauldrath, Jens; Arne Kunisch (2005): Kooperative Evaluation der Usability von Suchmaschineninterfaces. IW & P, 21-28 [http://www.fauldrath.net/studienprojekte/suchmaschinenusability/kooperative-evaluation-der-usability-von-suchmaschineninterfacen.html ] (letzter Zugriff: 01.06.2007) | ||
+ | |||
+ | *Karzauninkat, Stefan (1999): Zielfahndung. Suchmaschinen, Kataloge, Spezialisten und kommerzielle Datenbanken richtig einsetzen. http://www.heise.de/ct/99/23/172/, (08.07.2002) | ||
+ | |||
+ | *Lewandowski, Dirk (2005): Technologien zur Informationssuche im Internet, DGI (Hrsg.), Dinges & Frick GmbH, Wiesbaden | ||
− | |||
*Luckhardt, H.-D. (2005): Information Retrieval, eine erste Orientierung. Online verfügbar unter: http://is.uni-sb.de/studium/handbuch/exkurs.ir.html (letzter Zugriff: 30.11.05) | *Luckhardt, H.-D. (2005): Information Retrieval, eine erste Orientierung. Online verfügbar unter: http://is.uni-sb.de/studium/handbuch/exkurs.ir.html (letzter Zugriff: 30.11.05) | ||
*Luckhardt, H.-D.: Terminosaurus Rex der Informationswissenschaft, Universität des Saarlandes, Suchbegriff „Suchmaschine“. Online verfügbar unter: http://server02.is.uni-sb.de/trex/index.php?query=suchmaschine&id=2.1.6.2.2.5.3.&suche=Y (letzter Zugriff: 26.01.06) | *Luckhardt, H.-D.: Terminosaurus Rex der Informationswissenschaft, Universität des Saarlandes, Suchbegriff „Suchmaschine“. Online verfügbar unter: http://server02.is.uni-sb.de/trex/index.php?query=suchmaschine&id=2.1.6.2.2.5.3.&suche=Y (letzter Zugriff: 26.01.06) | ||
+ | ==Verwandte Begriffe== | ||
− | + | * [[broader::WWW]] | |
− | * | + | * [[related::WWW-Server]] |
− | + | * [[related::Webkatalog]] | |
− | * | + | * [[narrower::Crawler]] |
+ | * [[narrower::Metasuchmaschine]] | ||
+ | * [[narrower::Wissenschaftliche Suchmaschinen]] | ||
+ | [[category:Internet]] | ||
[[category:Information Retrieval]] | [[category:Information Retrieval]] |
Aktuelle Version vom 22. Januar 2009, 11:12 Uhr
Suchmaschinen bieten die Möglichkeit, im WWW über Suchbegriffe nach Informationen zu suchen. Sie sind ein Recherchemittel des Information Retrieval (vgl. auch Information Retrieval im Web) und werden hierbei als Interface, d.h. als Schnittstelle zwischen Mensch und Computer, verwendet. Der Nutzer gibt einen Suchbegriff ein, wodurch die Suchmaschine in einem Ranking Verweise auf möglicherweise relevante Dokumente gibt, meist dargestellt mit Titel und einem kurzen Auszug des jeweiligen Dokuments.
Inhaltsverzeichnis
Arten von Suchmaschinen
- Universalsuchmaschine
- Geläufigste Art von Suchmaschinen; ihr Ziel ist es, - soweit möglich (siehe Invisible Web) - das gesamte WWW zu erfassen.
- Spezialsuchmaschine
- Bezieht sich auf ein spezielles Themengebiet.
- Archivsuchmaschine
- Speichert gefundene Web-Seiten auf eigenen Rechnern ab, um diese dauerhaft verfügbar zu machen.
Sonderfall Metasuchmaschine
Eine spezielle Art von Suchmaschine, bei der mehrere Suchdienste automatisch über eine Schnittstelle abgefragt werden. Sie besitzt keine eigene Datenbank.
Vorteil einer Metasuchmaschine ist der sehr hohe Recall sowie die große Netzabdeckung. Jedoch wird nur der gemeinsame Nenner an Suchoperatoren unterstützt, so dass die Qualität der Suchergebnisse unter Umständen auf die der am wenigsten effizienten Suchmaschine reduziert wird.
Aufbereitung von Webseiten durch die Suchmaschine
Web-Crawler durchkämmen automatisch über Links das Web, "sammeln" alle auffindbaren Dokumente ein (Crawling) und speichern sie unstrukturiert und unreflektiert in großen Datenbanken.
Dabei kann prinzipiell von einem einzigen Dokument ausgegangen werden. Nach der Erfassung dieses Dokuments werden die darin enthaltenen Links verfolgt, wodurch neue Dokumente gefunden werden. Diese werden wiederum erschlossen, enthaltene Links werden wiederum verfolgt.
Im Idealfall ließe sich durch dieses Verfahren das gesamte Web erschließen.
Die Aufbereitung geschieht mit Hilfe von:
- Metadaten
- Prinzipiell sind dies Daten, die Informationen über andere Daten enthalten. Sie sind in der HTML in so genannten Meta-Tags enthalten und geben Auskunft über Sprache, Autor, Unternehmen, Schlagwörter,..., die dann von den Suchmaschinen ausgewertet werden.
- Bsp.: Dublin Core = Metadaten-Schema zur Beschreibung von Dokumenten und anderen Objekten im Internet, entstanden 1994 aus der DCMI (Dublin Core Metadata Initiative).
- Clustering
- Ähnliche Dokumente werden nach Ermittlung der Treffermenge aufgrund ihrer gemeinsam vorkommenden Stichwörter in eigene Klassen zusammengeführt.
- Stemming
- Wörter werden auf den Grundstamm reduziert, wodurch alle Formen eines Wortes gemeinsam gewertet werden.
Gängige Dokumenttypen:
Suchmethoden
Um die Suche zu verfeinern oder zu verbessern, kann der Nutzer auf verschiedene Suchoperatoren zurückgreifen, welche von Anbieter zu Anbieter unterschiedlich sind (siehe auch Syntax von Suchabfragen). Einige davon sind:
- Bool'sche Logik
- Adjacency-Funktion
- Phrasensuche
- Trunkierung
- Suchraumeingrenzung (zeitlich, Format,...)
- Relevance Feedback
- Fuzzy-Suche = Phonetische Suche nach Wörtern, die gleich klingen
Sortierung der Ergebnisse
Die Treffermenge wird nach Eingabe des Suchbegriffs in einem so genannten Ranking ausgewertet, bei dem die ersten Treffer die größte Relevanz für den Suchbegriff aufweisen sollten. Faktoren für diese Relevanzbeurteilung sind Wortgewichtung, Wortabstand, Position der Suchbegriffe oder Klickhäufigkeit.
Ein besonderer Aspekt der Relevanzbeurteilung ist die Linktopologie, von Google als PageRanking bezeichnet.
Sie bezieht sich auf die Linkstruktur des Webs, so dass jede Seite ein Gewicht hat, das umso größer ist, je mehr Seiten mit einem hohen eigenen Gewicht auf diese Seite verweisen. Das heißt, je mehr Links von anderen Seiten auf diese Webseite verweisen, desto höher ist die Positionierung im Ranking.
Negativer Aspekt daran ist, dass so genannte "Suchmaschinen-Optimierer" Backlinks für Webseiten erkaufen, damit diese möglichst hoch im Ranking positioniert werden. Somit rückt die Qualität bei der Relevanzbeurteilung vermehrt in den Hintergrund.
Ein weiteres negatives Beispiel ist das der "Google-Bombe": Google-Suchergebnisse werden für eine bestimmte Webseite durch vielfaches Setzen von Links mit einem vereinbarten Ankertext manipuliert. Gibt man diesen Ankertext nun als Suchbegriff ein, erscheint nicht nur die Seite mit dem Link, sondern auch die Seite, auf die der Link verweist. So haben mehrere Webseiten mit dem Ankertext "failure" die Homepage von "Michael Moore" verlinkt. Wenn man bei Google nun den Begriff "failure" eingibt, erscheint diese Webseite auf höchster Position im Ranking.
Außerdem entstanden im Netz inoffizielle Wettbewerbe, so genannte Suchmaschinen-Optimierungs-Wettstreite, bei der Begriffe wie "Schnitzelmitkartoffelsalat" oder "Hommingberger Gepardenforelle" (also Begriffe, die im Suchmaschinenindex noch nicht vorkamen) auf die höchstmögliche Position im Ranking gebracht werden sollten.
Grundprinzipien
- Akualität
- Bei großen Suchmaschinen wird etwa alle 30 Tage eine Indexaktualisierung vorgenommen.
- Qualität
- Diese soll durch die Rankingfaktoren gewährleistet werden.
- Verbesserung der Dokumentrepräsentation
- Einteilung der Dokumente in sinnvolle Felder bei der Aufbereitung, Hinzufügen weiterer Attribute für die Repräsentation der Dokumente,...
Probleme
- Publikationsflut
- Das Web wächst schneller als die Suchmaschinen mit der derzeitigen Technik indexieren können. So wird es für die Suchmaschinen auch problematisch, immer auf dem aktuellsten Stand zu sein.
- Invisible Web
- Der Teil des Webs, der über Suchmaschinen nicht auffindbar ist.
- Lost in Hyperspace
- Orientierungslosigkeit bei der Webrecherche.
- Kognitive Overload
- Wenn der Navigationsaufwand den Leseaufwand übersteigt, kann es zur Belastung der menschlichen Aufnahmefähigkeit kommen.
- Spamming
- Webseiten-Betreiber versuchen, den Ranking-Algorithmus der Suchmaschinen zu überlisten, um eine bessere Platzierung für gewisse Suchanfragen zu bekommen.
- Rechtliches
- Durch den unkontrollierten Input des Internets treten Probleme beim Urheberrecht auf (siehe Copyright und Internet). Außerdem sind bei international betriebenen Suchmaschinen die unterschiedlichen Gesetzgebungen der jeweiligen Länder zu beachten.
- Formale Sprache
- Für Suchmaschinen werden formale Sprachen benötigt, wenn sie effektiv genutzt werden sollen. Dies verhindert aber, dass es jedermann möglich ist, effektiv an gesuchte Informationen zu gelangen, da nicht jeder die passende Sprache beherrscht. Mit der Möglichkeit einer natürlichsprachlichen Suche würde sich dies beheben lassen (siehe Natürliche Sprache und Suchmaschinen).
Suchmaschinenanbieter
Aufgrund der Komplexität des Webs scheint auf den ersten Blick ein gesunder Wettbewerb zwischen den Suchmaschinenanbietern zu bestehen, jedoch beherrschen nur wenige den Markt.
Die größten vier sind in der unten angegebenen Tabelle aufgeführt. Yahoo hat durch den Aufkauf von "Alltheweb", "Altavista" und dem Suchtechnologie-Anbieter "Inktomi" seit 2004 eine eigene Suchmaschine. MSN hat seit 2003 eine eigene Suchtechnologie und Askjeeves betreibt durch den Aufkauf von "Teoma" seit 2003 eine eigene Suchmaschine.
Quelle: Lewandowski, Dirk (2005): Technologien zur Informationssuche im Internet, DGI (Hrsg.), Dinges & Frick GmbH, Wiesbaden
Usability und Nutzerforschung
Um zu überprüfen, inwieweit Standards für das Produkt Suchdienstleistung im Web existieren und wie diese Funktionalitäten bereits heute in die Angebote integriert sind, werden Usability-Tests für Suchmaschinen durchgeführt.
Dabei wird, wie in einer Projektarbeit des Fachbereichs Informations- und Wissensmanagement (IuW) der Fachhochschule Darmstadt mit der T-Online International AG (Weiterstadt) im März 2004, ein Kriterienkatalog mit unterschiedlichen Kategorien wie "Such- und Hilfefunktionen" oder "Zusatzdienste" erstellt, mit dem verschiedene Suchmaschinen dann überprüft werden.
Ziel dieser Untersuchungen ist es, die Suchmaschinen so zu verbessern, dass der Nutzer möglichst schnell, einfach und umfassend zum Ergebnis kommt.
Außerdem führen die Suchmaschinenanbieter Nutzerbefragungen (Fragebögen, Telefoninterviews,...), "Laborexperimente" (Nutzer werden bei der Recherche direkt beobachtet) oder Logfile-Analysen (Anzahl der ausgewerteten Anfragen der Nutzer) durch, um sich zentral an den Bedürfnissen ihrer Nutzer zu orientieren.
Dabei stellte sich heraus, dass die Anfragen im Bereich "Technologie" und "Sex" rückgängig sind, wohingegen Anfragen im Bereich E-Commerce zunehmen.
Die Arten der Suchanfragen teilen sich wie folgt auf (400 zufällige Anfragen bei Altavista):
- navigationsorientiert: 20-24,5 %
- Der Nutzer versucht, eine bestimmte Webseite zu erreichen, von der er weiß bzw. vermutet, dass es sie gibt.
- informationsorientiert: 39-48 %
- Der Nutzer versucht, thematisch passende Dokumente zu finden.
- transaktionsorientiert: 22-30 %
- Für den Nutzer soll nach dem Auffinden eine Transaktion folgen (Download oder Kauf eines Produkts).
Links
- Metasuchmaschinen
- Bool'sches Modell: http://www.boolistic.de
Quellen
- Fauldrath, Jens; Arne Kunisch (2005): Kooperative Evaluation der Usability von Suchmaschineninterfaces. IW & P, 21-28 [1] (letzter Zugriff: 01.06.2007)
- Karzauninkat, Stefan (1999): Zielfahndung. Suchmaschinen, Kataloge, Spezialisten und kommerzielle Datenbanken richtig einsetzen. http://www.heise.de/ct/99/23/172/, (08.07.2002)
- Lewandowski, Dirk (2005): Technologien zur Informationssuche im Internet, DGI (Hrsg.), Dinges & Frick GmbH, Wiesbaden
- Luckhardt, H.-D. (2005): Information Retrieval, eine erste Orientierung. Online verfügbar unter: http://is.uni-sb.de/studium/handbuch/exkurs.ir.html (letzter Zugriff: 30.11.05)
- Luckhardt, H.-D.: Terminosaurus Rex der Informationswissenschaft, Universität des Saarlandes, Suchbegriff „Suchmaschine“. Online verfügbar unter: http://server02.is.uni-sb.de/trex/index.php?query=suchmaschine&id=2.1.6.2.2.5.3.&suche=Y (letzter Zugriff: 26.01.06)