Ranking: Unterschied zwischen den Versionen
(7 dazwischenliegende Versionen von 3 Benutzern werden nicht angezeigt) | |||
Zeile 1: | Zeile 1: | ||
− | Um den | + | [[definition::Um den Nutzern die Beurteilung eines Rechercheergebnisses zu erleichtern, sortieren Datenbankenhosts oder Websuchmaschinen die Dokumente nach deren Relevanz]]. Diesen Prozess bezeichnet man als '''Ranking'''. Die meisten Ranking-Methoden beruhen auf statistischen Kriterien. |
Prinzipielle Sortierungskriterien sind: | Prinzipielle Sortierungskriterien sind: | ||
*Die Anzahl der gefundenen Wörter | *Die Anzahl der gefundenen Wörter | ||
− | Je mehr eingegebene Suchbegriffe vorkommen, desto höher ist die Relevanz. Bei Anfragen mit mehreren Suchbegriffen werden die Dokumente, in denen alle Begriffe vorkommen höher eingestuft. | + | Je mehr eingegebene Suchbegriffe vorkommen, desto höher ist die Relevanz. Bei Anfragen mit mehreren Suchbegriffen werden die Dokumente, in denen alle Begriffe vorkommen, höher eingestuft. |
*Häufigkeit der Suchterme innerhalb des Dokuments | *Häufigkeit der Suchterme innerhalb des Dokuments | ||
− | Wenn ein Suchbegriff mehrmals vorkommt, wird ein Dokument ebenfalls höher eingestuft. Dies ist jedoch ein problematisches Kriterium, da die Häufigkeit ja nicht zwangsläufig etwas über die Qualität aussagt, denn es kann sich ja auch um bloße Wortwiederholungen halten oder um Spamming | + | Wenn ein Suchbegriff mehrmals vorkommt, wird ein Dokument ebenfalls höher eingestuft. Dies ist jedoch ein problematisches Kriterium, da die Häufigkeit ja nicht zwangsläufig etwas über die Qualität aussagt, denn es kann sich ja auch um bloße Wortwiederholungen halten oder um [[Information Retrieval#Probleme bei der Suche nach Information|Spamming]]. |
*Die Gesamthäufigkeit einzelner Worte | *Die Gesamthäufigkeit einzelner Worte | ||
− | Dies bezieht sich auf die Gesamthäufigkeit eines Suchterms in der gesamten Datenbank, denn da häufig gebrauchte Worte einen geringeren | + | Dies bezieht sich auf die Gesamthäufigkeit eines Suchterms in der gesamten Datenbank, denn da häufig gebrauchte Worte einen geringeren Unterscheidungsgrad besitzen, können sie ein Dokument nur unzureichend charakterisieren. Aus diesem Grund werden Dokumente, welche selten gebrauchte Termini beinhalten, höher gerankt als Seiten, in denen hochfrequente Begriffe vorkommen. |
*Die Wortnähe, d.h. der Abstand der Suchbegriffe im Dokument | *Die Wortnähe, d.h. der Abstand der Suchbegriffe im Dokument | ||
− | Dokumente bei denen die eingegebenen Suchterme im geringen Abstand zueinander vorkommen, werden besser eingestuft als Seiten, bei denen eine größere Wortdistanz zwischen den Begriffen besteht. Der Idealfall ist das Vorkommen der Suchterme als exakte Phrase. | + | Dokumente, bei denen die eingegebenen Suchterme im geringen Abstand zueinander vorkommen, werden besser eingestuft als Seiten, bei denen eine größere Wortdistanz zwischen den Begriffen besteht. Der Idealfall ist das Vorkommen der Suchterme als exakte Phrase. |
*Wortdichte | *Wortdichte | ||
− | Bei diesem Verfahren wird untersucht, wie häufig ein Begriff im Verhältnis zur Gesamtzahl der Worte in einem Dokument vorkommt. Je frequenter der Suchterm | + | Bei diesem Verfahren wird untersucht, wie häufig ein Begriff im Verhältnis zur Gesamtzahl der Worte in einem Dokument vorkommt. Je frequenter der Suchterm auftritt, desto besser fällt das Ranking aus. |
*Position der Worte | *Position der Worte | ||
Die Position eines Wortes im Text gilt als Indiz für seine Wichtigkeit. Ein Dokument, das einen Suchbegriff im Titel, in der URL, in der Überschrift oder im Textanfang enthält, wird höher eingestuft als eine Seite/ein Dokument, bei der/dem dieser Begriff lediglich im Fließtext auftritt. | Die Position eines Wortes im Text gilt als Indiz für seine Wichtigkeit. Ein Dokument, das einen Suchbegriff im Titel, in der URL, in der Überschrift oder im Textanfang enthält, wird höher eingestuft als eine Seite/ein Dokument, bei der/dem dieser Begriff lediglich im Fließtext auftritt. | ||
+ | |||
+ | ==Verwandte Begriffe== | ||
+ | |||
+ | * [[broader::Information Retrieval]] | ||
+ | * [[related::Suchmaschine]] | ||
+ | * [[related::Datenbank]] | ||
+ | * [[related::Fachinformation]] | ||
+ | |||
+ | [[category:Informationsarbeit]] |
Aktuelle Version vom 24. September 2008, 10:03 Uhr
Um den Nutzern die Beurteilung eines Rechercheergebnisses zu erleichtern, sortieren Datenbankenhosts oder Websuchmaschinen die Dokumente nach deren Relevanz. Diesen Prozess bezeichnet man als Ranking. Die meisten Ranking-Methoden beruhen auf statistischen Kriterien.
Prinzipielle Sortierungskriterien sind:
- Die Anzahl der gefundenen Wörter
Je mehr eingegebene Suchbegriffe vorkommen, desto höher ist die Relevanz. Bei Anfragen mit mehreren Suchbegriffen werden die Dokumente, in denen alle Begriffe vorkommen, höher eingestuft.
- Häufigkeit der Suchterme innerhalb des Dokuments
Wenn ein Suchbegriff mehrmals vorkommt, wird ein Dokument ebenfalls höher eingestuft. Dies ist jedoch ein problematisches Kriterium, da die Häufigkeit ja nicht zwangsläufig etwas über die Qualität aussagt, denn es kann sich ja auch um bloße Wortwiederholungen halten oder um Spamming.
- Die Gesamthäufigkeit einzelner Worte
Dies bezieht sich auf die Gesamthäufigkeit eines Suchterms in der gesamten Datenbank, denn da häufig gebrauchte Worte einen geringeren Unterscheidungsgrad besitzen, können sie ein Dokument nur unzureichend charakterisieren. Aus diesem Grund werden Dokumente, welche selten gebrauchte Termini beinhalten, höher gerankt als Seiten, in denen hochfrequente Begriffe vorkommen.
- Die Wortnähe, d.h. der Abstand der Suchbegriffe im Dokument
Dokumente, bei denen die eingegebenen Suchterme im geringen Abstand zueinander vorkommen, werden besser eingestuft als Seiten, bei denen eine größere Wortdistanz zwischen den Begriffen besteht. Der Idealfall ist das Vorkommen der Suchterme als exakte Phrase.
- Wortdichte
Bei diesem Verfahren wird untersucht, wie häufig ein Begriff im Verhältnis zur Gesamtzahl der Worte in einem Dokument vorkommt. Je frequenter der Suchterm auftritt, desto besser fällt das Ranking aus.
- Position der Worte
Die Position eines Wortes im Text gilt als Indiz für seine Wichtigkeit. Ein Dokument, das einen Suchbegriff im Titel, in der URL, in der Überschrift oder im Textanfang enthält, wird höher eingestuft als eine Seite/ein Dokument, bei der/dem dieser Begriff lediglich im Fließtext auftritt.