Cluster: Unterschied zwischen den Versionen

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Zur Navigation springen Zur Suche springen
 
 
(15 dazwischenliegende Versionen von 3 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
Der Begriff Cluster stammt aus dem englischen Sprachgebrauch und besitzt die Grundbedeutung Gruppe, Anhäufung, Bündel.  
+
Der Begriff Clustering stammt vom englischen Begriff Cluster ab, der  Gruppe, Anhäufung, Bündel bedeutet. Der Prozess  Dokumente nach gemeinsamen Inhalten zu gruppieren wird Clustering genannt.
  
In einem Cluster werden Mengen von Objekten zusammengefasst, die gleiche oder ähnliche Merkmale aufweisen. Der Prozess des Clustering findet bei der [[Informationserschließung]] sowie im Bereich des Information Retrievals Anwendung. Im [[Information Retrieval]] besteht ein Cluster aus der Menge "ähnlicher" Objekte, die durch das Vorkommen gemeinsamer Stichwörter bzw. Indexelemente identifiziert werden.
+
==Definition==
  
 +
Cluster und der Prozess des Clustering werden in verschiedenen wissenschaftlichen Disziplinen verwendet. In der [[Informationswissenschaft]] spielt die Clusterbildung im [[Information Retrieval]] eine sehr wichtige Rolle. Deshalb wird hier nur auf diesen Aspekt eingegangen. [[definition::In einem Cluster werden Mengen von Objekten zusammengefasst, die gleiche oder ähnliche Merkmale aufweisen]].Clusterbildung bedeutet, dass Dokumente somit nach gemeinsamen inhaltlichen Kriterien gruppiert, also in grobe Klassen eingeteilt werden können. Dem Benutzer wird auf diese Weise die fehlende Kontextinformation zur Verfügung gestellt.
  
 +
==Clustering==
  
='''Quelle:'''=
+
Bei einem Clustering, auch Clusteranalyse genannt, werden sich ähnelnde Dokumente in eigenen Klassen zusammengeführt, ähnlich der der Klassifizierung. Der Unterschied ist, die Klassen werden beim Clustering erst nach der Ermittlung der Treffermenge gebildet. Im Gegensatz zur klassifikatorischen Erschliessung erfolgt bei kein Abgleich zwischen einem Dokument und bestehenden Klassen, denn die die Klassen werden erst aufgrund von Ähnlichkeiten zwischen den Dokumenten aus der Treffermenge gebildet. So kann eine fehlerbehaftete Zuordnung zu Klassen einer Klassifikation vermieden werden.
  
Luckhardt, Heinz-Dirk: Terminosaurus Rex der Informationswissnschaft, Universität des Saarlandes. Online verfügbar unter:[http://server02.is.uni-sb.de/trex/]. Suchbegriff: Clustering.(letzter Zugriff: 07.03.2006)
+
===Anwendung===
 +
 
 +
Das Clustering ist ein weitverbreitetes Tool. Es wird in modernen Enterprise-Search-Applikationen wie [Northern Light Enterprise Search Engine][http://northernlight.com/]  und Suchmaschinen verwendet.
 +
 +
Bei Suchmaschinen wird die ermittelte Ergebnismenge mit Clustervisualisierung in unterschiedlich grobe Kategorien unterteilt, wie beispielsweise das Thema, der Dokumententyp oder die Quelle. Dies erleichtert es dem Nutzer die für ihn relevanten Treffer zu selektieren. Relevante Dokumente können im Prozess der Einschränkung durch teils ungenaue Zuordnungen sozusagen verloren gehen. Dennoch bietet das Verfahren gerade einem ungeübten Nutzer die Möglichkeit, Dokumente zu finden, welche zu seinem Informationsbedürfnis passen, auch wenn die Suchanfrage nur sehr ungenau formuliert war und aus diesem Grund die dahinterstehende Intention nicht erkennbar war. Formuliert der Nutzer jedoch die Suchanfrage zu spezifisch und es werden deshalb nur wenige Treffer gefunden, bietet eine Clusteranalyse keine Möglichkeit so zu einer weniger spezifischen Anfrage zu gelangen ohne die Suchanfrage neu zu formulieren.
 +
 
 +
Eine Suchmaschine, welche die Ergebnisse in Clusterform darstellt, ist [Clusty][http://clusty.com/].
 +
 
 +
===Problematik des automatischen Clustering===
 +
 
 +
*[Akronyme][http://www.duden.de/rechtschreibung/Akronym]: In den Zieldokumenten werden häufig Akronyme statt der ausgeschriebenen Form verwendet. Deshalb wird das Akronym dann auch für die Clusterbezeichnung verwendet. Ein Beispiel: ISI  für „Internationales Symposium für Informationswissenschaft“. Nur Nutzer, welche bereits mit dem Umfeld des verwendeten Suchbegriffs vertraut sind, kennen die Akronyme. Je nachdem ob in einigen Dokumenten ein Akronym und in anderen die ausgeschriebene Form verwendet wird, werden zwei unterschiedliche Cluster gebildet. Ziel wäre jedoch beide Bezeichnungen unter einem Cluster zu subsumieren. Gleiches gilt auch für Synonyme.
 +
*Unvollständige Begriffe / Teile von Phrasen: Oft kommen unvollständige Phrasen oder Begriffe vor. Die Folge davon ist ebenfalls, dass mehrere Cluster gebildet werden. Beispiel: „Bibliotheks“ für „Bibliotheks- und Informationswissenschaft“ oder „Humboldt“ anstatt „Humboldt Universität“.
 +
*Verwendung von zu allgemeinen Begriffen: Für die Clusterbildung sind umfangreiche [[Stoppwort|Stoppwortlisten]] nötig, die an die unterschiedlichen Sprachen angepasst werden müssen. Beispiel: In der Bezeichnung eines Clusters wird eine Postleitzahl verwendet.
 +
 
 +
==Quellen==
 +
 
 +
*Ester, Martin; Sander, Jörg (2000): ''Knowledge discovery in databases: Techniken und Anwendungen.'' Berlin: Springer.
 +
 
 +
*Grlica, Christian (2013): ''Visualisierung im Information Retrieval System: Möglichkeiten und Methoden zur Informationsvisualisierung in einem Information Retrieval System.'' München: Grin.
 +
 
 +
*Lewandowski, Dirk (2005): ''Web Information Retrieval.''Wiesbaden: DGI. Verfügbar unter: http://www.bui.haw-hamburg.de/fileadmin/user_upload/lewandowski/doc/Web_Information_Retrieval_Buch.pdf [22.11.2014]
 +
 
 +
*Luckhardt, Heinz-Dirk: ''Terminosaurus Rex der Informationswissnschaft.'' Universität des Saarlandes. Verfügbar unter:[http://server02.is.uni-sb.de/trex/] [07.03.2006]
 +
 
 +
*Sprint (2013): ''Darstellung der Treffer.'' Verfügbar unter: http://sprint.informationswissenschaft.ch/allgemeine-suche/suchstrategie/darstellung-der-treffer/ [24.11.2014]
 +
 
 +
*Wolz, Jonas (2005): ''Clustering von Dokumenten (k-means, HCL).'' Universität Ulm. Verfügbar unter: http://www.informatik.uni-ulm.de/ni/Lehre/SS05/ProseminarTextMining/ausarbeitungen/Wolz.pdf [22.11.2014]
 +
 
 +
==Weiterführende Literatur==
 +
 
 +
*Runkler, Thomas A. (2011): ''Data Mining: Methoden und Algorithmen intelligenter Datenanalyse.'') Wiesbaden: Vieweg+Teubner.
 +
 
 +
*Weili, Wu; Shekhar, Shashi (2003): ''Clustering and Information Retrieval'' New York: Kluwer Academic Publishers.
 +
 
 +
==Weblinks==
 +
 
 +
*http://www.folden.de/suchmaschinenclustertechnologien.shtml
 +
 
 +
*http://de.wikipedia.org/wiki/Cluster
 +
 
 +
==Verwandte Begriffe==
 +
 
 +
* [[broader::Informationserschließung]]
 +
* [[broader::Information Retrieval]]
 +
* [[related::Indexierung]]
 +
* [[related::Katalogisierung]]
 +
* [[related::Klassifikation]]
 +
* [[related::Abstracting]]
 +
* [[synonymous::Bündel]]
 +
* [[synonymous::Clusteranalyse]]
 +
 
 +
* [[english::cluster]]
 +
 
 +
[[category:Informationsarbeit]]
 +
[[category:Information Retrieval]]
 +
[[category:Wissensrepräsentation]]

Aktuelle Version vom 16. Dezember 2014, 12:51 Uhr

Der Begriff Clustering stammt vom englischen Begriff Cluster ab, der Gruppe, Anhäufung, Bündel bedeutet. Der Prozess Dokumente nach gemeinsamen Inhalten zu gruppieren wird Clustering genannt.

Definition

Cluster und der Prozess des Clustering werden in verschiedenen wissenschaftlichen Disziplinen verwendet. In der Informationswissenschaft spielt die Clusterbildung im Information Retrieval eine sehr wichtige Rolle. Deshalb wird hier nur auf diesen Aspekt eingegangen. In einem Cluster werden Mengen von Objekten zusammengefasst, die gleiche oder ähnliche Merkmale aufweisen.Clusterbildung bedeutet, dass Dokumente somit nach gemeinsamen inhaltlichen Kriterien gruppiert, also in grobe Klassen eingeteilt werden können. Dem Benutzer wird auf diese Weise die fehlende Kontextinformation zur Verfügung gestellt.

Clustering

Bei einem Clustering, auch Clusteranalyse genannt, werden sich ähnelnde Dokumente in eigenen Klassen zusammengeführt, ähnlich der der Klassifizierung. Der Unterschied ist, die Klassen werden beim Clustering erst nach der Ermittlung der Treffermenge gebildet. Im Gegensatz zur klassifikatorischen Erschliessung erfolgt bei kein Abgleich zwischen einem Dokument und bestehenden Klassen, denn die die Klassen werden erst aufgrund von Ähnlichkeiten zwischen den Dokumenten aus der Treffermenge gebildet. So kann eine fehlerbehaftete Zuordnung zu Klassen einer Klassifikation vermieden werden.

Anwendung

Das Clustering ist ein weitverbreitetes Tool. Es wird in modernen Enterprise-Search-Applikationen wie [Northern Light Enterprise Search Engine][1] und Suchmaschinen verwendet.

Bei Suchmaschinen wird die ermittelte Ergebnismenge mit Clustervisualisierung in unterschiedlich grobe Kategorien unterteilt, wie beispielsweise das Thema, der Dokumententyp oder die Quelle. Dies erleichtert es dem Nutzer die für ihn relevanten Treffer zu selektieren. Relevante Dokumente können im Prozess der Einschränkung durch teils ungenaue Zuordnungen sozusagen verloren gehen. Dennoch bietet das Verfahren gerade einem ungeübten Nutzer die Möglichkeit, Dokumente zu finden, welche zu seinem Informationsbedürfnis passen, auch wenn die Suchanfrage nur sehr ungenau formuliert war und aus diesem Grund die dahinterstehende Intention nicht erkennbar war. Formuliert der Nutzer jedoch die Suchanfrage zu spezifisch und es werden deshalb nur wenige Treffer gefunden, bietet eine Clusteranalyse keine Möglichkeit so zu einer weniger spezifischen Anfrage zu gelangen ohne die Suchanfrage neu zu formulieren.

Eine Suchmaschine, welche die Ergebnisse in Clusterform darstellt, ist [Clusty][2].

Problematik des automatischen Clustering

  • [Akronyme][3]: In den Zieldokumenten werden häufig Akronyme statt der ausgeschriebenen Form verwendet. Deshalb wird das Akronym dann auch für die Clusterbezeichnung verwendet. Ein Beispiel: ISI für „Internationales Symposium für Informationswissenschaft“. Nur Nutzer, welche bereits mit dem Umfeld des verwendeten Suchbegriffs vertraut sind, kennen die Akronyme. Je nachdem ob in einigen Dokumenten ein Akronym und in anderen die ausgeschriebene Form verwendet wird, werden zwei unterschiedliche Cluster gebildet. Ziel wäre jedoch beide Bezeichnungen unter einem Cluster zu subsumieren. Gleiches gilt auch für Synonyme.
  • Unvollständige Begriffe / Teile von Phrasen: Oft kommen unvollständige Phrasen oder Begriffe vor. Die Folge davon ist ebenfalls, dass mehrere Cluster gebildet werden. Beispiel: „Bibliotheks“ für „Bibliotheks- und Informationswissenschaft“ oder „Humboldt“ anstatt „Humboldt Universität“.
  • Verwendung von zu allgemeinen Begriffen: Für die Clusterbildung sind umfangreiche Stoppwortlisten nötig, die an die unterschiedlichen Sprachen angepasst werden müssen. Beispiel: In der Bezeichnung eines Clusters wird eine Postleitzahl verwendet.

Quellen

  • Ester, Martin; Sander, Jörg (2000): Knowledge discovery in databases: Techniken und Anwendungen. Berlin: Springer.
  • Grlica, Christian (2013): Visualisierung im Information Retrieval System: Möglichkeiten und Methoden zur Informationsvisualisierung in einem Information Retrieval System. München: Grin.
  • Luckhardt, Heinz-Dirk: Terminosaurus Rex der Informationswissnschaft. Universität des Saarlandes. Verfügbar unter:[4] [07.03.2006]

Weiterführende Literatur

  • Runkler, Thomas A. (2011): Data Mining: Methoden und Algorithmen intelligenter Datenanalyse.) Wiesbaden: Vieweg+Teubner.
  • Weili, Wu; Shekhar, Shashi (2003): Clustering and Information Retrieval New York: Kluwer Academic Publishers.

Weblinks

Verwandte Begriffe

… weitere Daten zur Seite „Cluster
In einem Cluster werden Mengen von Objekten zusammengefasst, die gleiche oder ähnliche Merkmale aufweisen +