Ranking: Unterschied zwischen den Versionen
Zeile 10: | Zeile 10: | ||
*Die Gesamthäufigkeit einzelner Worte | *Die Gesamthäufigkeit einzelner Worte | ||
+ | Dies bezieht sich auf die Gesamthäufigkeit eines Suchterms in der gesamten Datenbank, denn da häufig gebrauchte Worte einen geringeren UNterscheidungsgrad besitzen, können sie ein Dokument nur unzureichend charakterisieren. Aus diesem Grund werden Dokumente, welche selten gebrauchte Termini beinhalten, höher gerankt als Seiten, in denen hochfrequente Begriffe vorkommen. | ||
+ | |||
+ | *Die Wortnähe, d.h. der Abstand der Suchbegriffe im Dokument | ||
+ | Dokumente bei denen die eingegebenen Suchterme im geringen Abstand zuein |
Version vom 28. September 2005, 10:45 Uhr
Um den Benutzer die Beurteilung des Ergebnisses seiner Recherche zu erleichtern, versuchen Datenbanken oder Websuchmaschinen, die Dokumente nach deren Relevanz zu sortieren. Diesen Prozess bezeichnet man als Ranking. Die meisten Ranking-Methoden beruhen auf statistischen Kriterien.
Prinzipielle Sortierungskriterien sind:
- Die Anzahl der gefundenen Wörter
Je mehr eingegebene Suchbegriffe vorkommen, desto höher ist die Relevanz. Bei Anfragen mit mehreren Suchbegriffen werden die Dokumente, in denen alle Begriffe vorkommen höher eingestuft.
- Häufigkeit der Suchterme innerhalb des Dokuments
Wenn ein Suchbegriff mehrmals vorkommt, wird ein Dokument ebenfalls höher eingestuft. Dies ist jedoch ein problematisches Kriterium, da die Häufigkeit ja nicht zwangsläufig etwas über die Qualität aussagt, denn es kann sich ja auch um bloße Wortwiederholungen halten oder um Spamming (s.o.).
- Die Gesamthäufigkeit einzelner Worte
Dies bezieht sich auf die Gesamthäufigkeit eines Suchterms in der gesamten Datenbank, denn da häufig gebrauchte Worte einen geringeren UNterscheidungsgrad besitzen, können sie ein Dokument nur unzureichend charakterisieren. Aus diesem Grund werden Dokumente, welche selten gebrauchte Termini beinhalten, höher gerankt als Seiten, in denen hochfrequente Begriffe vorkommen.
- Die Wortnähe, d.h. der Abstand der Suchbegriffe im Dokument
Dokumente bei denen die eingegebenen Suchterme im geringen Abstand zuein