Cluster: Unterschied zwischen den Versionen
(Kategorie hinzu gefügt) |
Fii (Diskussion | Beiträge) |
||
(14 dazwischenliegende Versionen von 3 Benutzern werden nicht angezeigt) | |||
Zeile 1: | Zeile 1: | ||
− | Der Begriff | + | Der Begriff Clustering stammt vom englischen Begriff Cluster ab, der Gruppe, Anhäufung, Bündel bedeutet. Der Prozess Dokumente nach gemeinsamen Inhalten zu gruppieren wird Clustering genannt. |
− | + | ==Definition== | |
+ | Cluster und der Prozess des Clustering werden in verschiedenen wissenschaftlichen Disziplinen verwendet. In der [[Informationswissenschaft]] spielt die Clusterbildung im [[Information Retrieval]] eine sehr wichtige Rolle. Deshalb wird hier nur auf diesen Aspekt eingegangen. [[definition::In einem Cluster werden Mengen von Objekten zusammengefasst, die gleiche oder ähnliche Merkmale aufweisen]].Clusterbildung bedeutet, dass Dokumente somit nach gemeinsamen inhaltlichen Kriterien gruppiert, also in grobe Klassen eingeteilt werden können. Dem Benutzer wird auf diese Weise die fehlende Kontextinformation zur Verfügung gestellt. | ||
+ | ==Clustering== | ||
− | + | Bei einem Clustering, auch Clusteranalyse genannt, werden sich ähnelnde Dokumente in eigenen Klassen zusammengeführt, ähnlich der der Klassifizierung. Der Unterschied ist, die Klassen werden beim Clustering erst nach der Ermittlung der Treffermenge gebildet. Im Gegensatz zur klassifikatorischen Erschliessung erfolgt bei kein Abgleich zwischen einem Dokument und bestehenden Klassen, denn die die Klassen werden erst aufgrund von Ähnlichkeiten zwischen den Dokumenten aus der Treffermenge gebildet. So kann eine fehlerbehaftete Zuordnung zu Klassen einer Klassifikation vermieden werden. | |
− | + | ===Anwendung=== | |
+ | Das Clustering ist ein weitverbreitetes Tool. Es wird in modernen Enterprise-Search-Applikationen wie [Northern Light Enterprise Search Engine][http://northernlight.com/] und Suchmaschinen verwendet. | ||
+ | |||
+ | Bei Suchmaschinen wird die ermittelte Ergebnismenge mit Clustervisualisierung in unterschiedlich grobe Kategorien unterteilt, wie beispielsweise das Thema, der Dokumententyp oder die Quelle. Dies erleichtert es dem Nutzer die für ihn relevanten Treffer zu selektieren. Relevante Dokumente können im Prozess der Einschränkung durch teils ungenaue Zuordnungen sozusagen verloren gehen. Dennoch bietet das Verfahren gerade einem ungeübten Nutzer die Möglichkeit, Dokumente zu finden, welche zu seinem Informationsbedürfnis passen, auch wenn die Suchanfrage nur sehr ungenau formuliert war und aus diesem Grund die dahinterstehende Intention nicht erkennbar war. Formuliert der Nutzer jedoch die Suchanfrage zu spezifisch und es werden deshalb nur wenige Treffer gefunden, bietet eine Clusteranalyse keine Möglichkeit so zu einer weniger spezifischen Anfrage zu gelangen ohne die Suchanfrage neu zu formulieren. | ||
+ | |||
+ | Eine Suchmaschine, welche die Ergebnisse in Clusterform darstellt, ist [Clusty][http://clusty.com/]. | ||
+ | |||
+ | ===Problematik des automatischen Clustering=== | ||
+ | |||
+ | *[Akronyme][http://www.duden.de/rechtschreibung/Akronym]: In den Zieldokumenten werden häufig Akronyme statt der ausgeschriebenen Form verwendet. Deshalb wird das Akronym dann auch für die Clusterbezeichnung verwendet. Ein Beispiel: ISI für „Internationales Symposium für Informationswissenschaft“. Nur Nutzer, welche bereits mit dem Umfeld des verwendeten Suchbegriffs vertraut sind, kennen die Akronyme. Je nachdem ob in einigen Dokumenten ein Akronym und in anderen die ausgeschriebene Form verwendet wird, werden zwei unterschiedliche Cluster gebildet. Ziel wäre jedoch beide Bezeichnungen unter einem Cluster zu subsumieren. Gleiches gilt auch für Synonyme. | ||
+ | *Unvollständige Begriffe / Teile von Phrasen: Oft kommen unvollständige Phrasen oder Begriffe vor. Die Folge davon ist ebenfalls, dass mehrere Cluster gebildet werden. Beispiel: „Bibliotheks“ für „Bibliotheks- und Informationswissenschaft“ oder „Humboldt“ anstatt „Humboldt Universität“. | ||
+ | *Verwendung von zu allgemeinen Begriffen: Für die Clusterbildung sind umfangreiche [[Stoppwort|Stoppwortlisten]] nötig, die an die unterschiedlichen Sprachen angepasst werden müssen. Beispiel: In der Bezeichnung eines Clusters wird eine Postleitzahl verwendet. | ||
+ | |||
+ | ==Quellen== | ||
+ | |||
+ | *Ester, Martin; Sander, Jörg (2000): ''Knowledge discovery in databases: Techniken und Anwendungen.'' Berlin: Springer. | ||
+ | |||
+ | *Grlica, Christian (2013): ''Visualisierung im Information Retrieval System: Möglichkeiten und Methoden zur Informationsvisualisierung in einem Information Retrieval System.'' München: Grin. | ||
+ | |||
+ | *Lewandowski, Dirk (2005): ''Web Information Retrieval.''Wiesbaden: DGI. Verfügbar unter: http://www.bui.haw-hamburg.de/fileadmin/user_upload/lewandowski/doc/Web_Information_Retrieval_Buch.pdf [22.11.2014] | ||
+ | |||
+ | *Luckhardt, Heinz-Dirk: ''Terminosaurus Rex der Informationswissnschaft.'' Universität des Saarlandes. Verfügbar unter:[http://server02.is.uni-sb.de/trex/] [07.03.2006] | ||
+ | |||
+ | *Sprint (2013): ''Darstellung der Treffer.'' Verfügbar unter: http://sprint.informationswissenschaft.ch/allgemeine-suche/suchstrategie/darstellung-der-treffer/ [24.11.2014] | ||
+ | |||
+ | *Wolz, Jonas (2005): ''Clustering von Dokumenten (k-means, HCL).'' Universität Ulm. Verfügbar unter: http://www.informatik.uni-ulm.de/ni/Lehre/SS05/ProseminarTextMining/ausarbeitungen/Wolz.pdf [22.11.2014] | ||
+ | |||
+ | ==Weiterführende Literatur== | ||
+ | |||
+ | *Runkler, Thomas A. (2011): ''Data Mining: Methoden und Algorithmen intelligenter Datenanalyse.'') Wiesbaden: Vieweg+Teubner. | ||
+ | |||
+ | *Weili, Wu; Shekhar, Shashi (2003): ''Clustering and Information Retrieval'' New York: Kluwer Academic Publishers. | ||
+ | |||
+ | ==Weblinks== | ||
+ | |||
+ | *http://www.folden.de/suchmaschinenclustertechnologien.shtml | ||
+ | |||
+ | *http://de.wikipedia.org/wiki/Cluster | ||
+ | |||
+ | ==Verwandte Begriffe== | ||
+ | |||
+ | * [[broader::Informationserschließung]] | ||
+ | * [[broader::Information Retrieval]] | ||
+ | * [[related::Indexierung]] | ||
+ | * [[related::Katalogisierung]] | ||
+ | * [[related::Klassifikation]] | ||
+ | * [[related::Abstracting]] | ||
+ | * [[synonymous::Bündel]] | ||
+ | * [[synonymous::Clusteranalyse]] | ||
+ | |||
+ | * [[english::cluster]] | ||
+ | |||
+ | [[category:Informationsarbeit]] | ||
[[category:Information Retrieval]] | [[category:Information Retrieval]] | ||
[[category:Wissensrepräsentation]] | [[category:Wissensrepräsentation]] |
Aktuelle Version vom 16. Dezember 2014, 12:51 Uhr
Der Begriff Clustering stammt vom englischen Begriff Cluster ab, der Gruppe, Anhäufung, Bündel bedeutet. Der Prozess Dokumente nach gemeinsamen Inhalten zu gruppieren wird Clustering genannt.
Inhaltsverzeichnis
Definition
Cluster und der Prozess des Clustering werden in verschiedenen wissenschaftlichen Disziplinen verwendet. In der Informationswissenschaft spielt die Clusterbildung im Information Retrieval eine sehr wichtige Rolle. Deshalb wird hier nur auf diesen Aspekt eingegangen. In einem Cluster werden Mengen von Objekten zusammengefasst, die gleiche oder ähnliche Merkmale aufweisen.Clusterbildung bedeutet, dass Dokumente somit nach gemeinsamen inhaltlichen Kriterien gruppiert, also in grobe Klassen eingeteilt werden können. Dem Benutzer wird auf diese Weise die fehlende Kontextinformation zur Verfügung gestellt.
Clustering
Bei einem Clustering, auch Clusteranalyse genannt, werden sich ähnelnde Dokumente in eigenen Klassen zusammengeführt, ähnlich der der Klassifizierung. Der Unterschied ist, die Klassen werden beim Clustering erst nach der Ermittlung der Treffermenge gebildet. Im Gegensatz zur klassifikatorischen Erschliessung erfolgt bei kein Abgleich zwischen einem Dokument und bestehenden Klassen, denn die die Klassen werden erst aufgrund von Ähnlichkeiten zwischen den Dokumenten aus der Treffermenge gebildet. So kann eine fehlerbehaftete Zuordnung zu Klassen einer Klassifikation vermieden werden.
Anwendung
Das Clustering ist ein weitverbreitetes Tool. Es wird in modernen Enterprise-Search-Applikationen wie [Northern Light Enterprise Search Engine][1] und Suchmaschinen verwendet.
Bei Suchmaschinen wird die ermittelte Ergebnismenge mit Clustervisualisierung in unterschiedlich grobe Kategorien unterteilt, wie beispielsweise das Thema, der Dokumententyp oder die Quelle. Dies erleichtert es dem Nutzer die für ihn relevanten Treffer zu selektieren. Relevante Dokumente können im Prozess der Einschränkung durch teils ungenaue Zuordnungen sozusagen verloren gehen. Dennoch bietet das Verfahren gerade einem ungeübten Nutzer die Möglichkeit, Dokumente zu finden, welche zu seinem Informationsbedürfnis passen, auch wenn die Suchanfrage nur sehr ungenau formuliert war und aus diesem Grund die dahinterstehende Intention nicht erkennbar war. Formuliert der Nutzer jedoch die Suchanfrage zu spezifisch und es werden deshalb nur wenige Treffer gefunden, bietet eine Clusteranalyse keine Möglichkeit so zu einer weniger spezifischen Anfrage zu gelangen ohne die Suchanfrage neu zu formulieren.
Eine Suchmaschine, welche die Ergebnisse in Clusterform darstellt, ist [Clusty][2].
Problematik des automatischen Clustering
- [Akronyme][3]: In den Zieldokumenten werden häufig Akronyme statt der ausgeschriebenen Form verwendet. Deshalb wird das Akronym dann auch für die Clusterbezeichnung verwendet. Ein Beispiel: ISI für „Internationales Symposium für Informationswissenschaft“. Nur Nutzer, welche bereits mit dem Umfeld des verwendeten Suchbegriffs vertraut sind, kennen die Akronyme. Je nachdem ob in einigen Dokumenten ein Akronym und in anderen die ausgeschriebene Form verwendet wird, werden zwei unterschiedliche Cluster gebildet. Ziel wäre jedoch beide Bezeichnungen unter einem Cluster zu subsumieren. Gleiches gilt auch für Synonyme.
- Unvollständige Begriffe / Teile von Phrasen: Oft kommen unvollständige Phrasen oder Begriffe vor. Die Folge davon ist ebenfalls, dass mehrere Cluster gebildet werden. Beispiel: „Bibliotheks“ für „Bibliotheks- und Informationswissenschaft“ oder „Humboldt“ anstatt „Humboldt Universität“.
- Verwendung von zu allgemeinen Begriffen: Für die Clusterbildung sind umfangreiche Stoppwortlisten nötig, die an die unterschiedlichen Sprachen angepasst werden müssen. Beispiel: In der Bezeichnung eines Clusters wird eine Postleitzahl verwendet.
Quellen
- Ester, Martin; Sander, Jörg (2000): Knowledge discovery in databases: Techniken und Anwendungen. Berlin: Springer.
- Grlica, Christian (2013): Visualisierung im Information Retrieval System: Möglichkeiten und Methoden zur Informationsvisualisierung in einem Information Retrieval System. München: Grin.
- Lewandowski, Dirk (2005): Web Information Retrieval.Wiesbaden: DGI. Verfügbar unter: http://www.bui.haw-hamburg.de/fileadmin/user_upload/lewandowski/doc/Web_Information_Retrieval_Buch.pdf [22.11.2014]
- Luckhardt, Heinz-Dirk: Terminosaurus Rex der Informationswissnschaft. Universität des Saarlandes. Verfügbar unter:[4] [07.03.2006]
- Sprint (2013): Darstellung der Treffer. Verfügbar unter: http://sprint.informationswissenschaft.ch/allgemeine-suche/suchstrategie/darstellung-der-treffer/ [24.11.2014]
- Wolz, Jonas (2005): Clustering von Dokumenten (k-means, HCL). Universität Ulm. Verfügbar unter: http://www.informatik.uni-ulm.de/ni/Lehre/SS05/ProseminarTextMining/ausarbeitungen/Wolz.pdf [22.11.2014]
Weiterführende Literatur
- Runkler, Thomas A. (2011): Data Mining: Methoden und Algorithmen intelligenter Datenanalyse.) Wiesbaden: Vieweg+Teubner.
- Weili, Wu; Shekhar, Shashi (2003): Clustering and Information Retrieval New York: Kluwer Academic Publishers.