Metadaten

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Zur Navigation springen Zur Suche springen
Metadaten sind Informationen über andere Daten (Dokumente, Datensammlungen, Bilder, Server etc.), die in einer bestimmten Form gehalten werden, sodass sie die Recherche, das Retrieval und die Nutzung der Primärdokumente ermöglichen, erleichtern und ggf. bestimmen.


Wozu dienen Metadaten?

Oft besteht der Wunsch inhaltlich verbundene, heterogene Objekte zu einem Thema oder Fachgebiet mittels einer Recherche zusammenzuführen. Etwa zum (Wieder-)Finden von Medien in Katalogen, Magazinen oder (online -)Datenbanken. Um diese Suche möglicht effektiv gestalten zu können, ist es sinnvoll dem Objekt Metadaten zuzuordnen ( Daten die das Objekt beschreiben). Soll nun nach einem bestimmten Objekt gesucht werden, so muss nicht jedes einzelne Objekt "betrachtet" werden, sondern es kann eine Suche in den wesentlich schlankeren und auch zumeist aussagekräftigeren Metadaten erfolgen. Wurden die Metadaten zuvor korrekt, das heißt aussagekräftig und den Spezifikationen entsprechend erstellt, so verläuft die Suche schneller und die Qualität der Suchergebnisse ist besser. Später dazu mehr, jetzt erst einmal ein Beispiel:

Schallplattensammlung lassen sich nach Merkmalen wie "gute Laune" oder "melancholische Stimmung" sortieren, in unterschiedlichen Kisten verpacken und die Kisten jeweils mit dem gemeinsamen Merkmal beschriften.

Möchte man nun Musik hören die gerade zur gutgelaunten Stimmung passt, so muss man nicht jede einzelne Platte in die Hand nehmen, sondern nimmt sich nur die entsprechende Kiste vor. Auf diese Weise wird die Such offensichtlich schneller vonstatten gehen.

Das Internet ist (leider) keine sauber strukturierte Datenbank, auf die komfortable Suchfunktionen angewendet werden können, sondern ein "Haufen unterschiedlichster Dokumentarten" erstellt von unterschiedlichsten Benutzern. Wir haben es also mit "Interoperabilität" verschiedener Metadatenformate und verschiedener technischer Systeme (Datenbanktypen und Rechnerplattformen) zu tun. Es ist also notwendig, dass Webseiten Suchmaschinen quasi "mitteilen" können mit was einer Art von Inhalt sie sich beschäftigen und welche Nutzer Interesse an ihnen haben könnten.

Wo werden Metadaten eingesetzt?

Metadaten finden in unterschiedlichsten Anwendungsgebieten ihren Einsatz:
Generell lassen sich mit Hilfe von Metadaten alle Arten von Objekten inhaltlich beschreiben und
in maschinenlesbarer Form darstellen. Daraufhin erleichtern bzw. ermöglichen sie es 
Suchmaschinen den Inhalt des Dokumentes, das sie beschreiben, inhaltlich und formal zu erfassen.    
Erst dann kann  eine Suchmaschinen Objekte strukturieren und Suchanfragen bearbeiten. 

Beispiele für Objekte, denen Metadaten zugeordnet werden können sind:

  • in physischer Form vorliege Objekte:
    • Texte (Bücher, Zeitungen, Notizen gleich ob handschriftlich oder gedruckt...)
    • Bilder (Gemälde, Drucke, Zeichnungen...)
    • Objekte (Kunst- und Gebrauchsgegenstände)
    • Klänge (Tonbandaufzeichnungen, Schallplatten...)
    • Filme (Filmrollen, Videokassetten...)
    • Lebewesen (Wild- und Zuchttiere, Pflanzen, Menschen)...
    • ...
  • oder digitale Daten:
    • Textdokumente
    • Graphikdateien
    • 3d-Animationene
    • Audio- oder Videodateien
    • Webseiten
    • ...

Wo werden Metadaten gespeichert?

Digitalen Daten werden in der Regel ihre Metadaten gleich mit angehängt. So finden sich in einem Textdokument in der Regel neben dem eigentlichen Text noch Informationen wie Name des Autors, Erstellungsdatum der Datei usw. Diese Praxis findet man bei physischen Objekten zwar unter Umständen auch (z.B. Etiketten mit Waschanleitungen an Kleidung), in der Regel sorgt man aber bei physischen Objekten nur dafür dass das Objekt eindeutig identifiziert wird und die eigentlichen Metadaten dann in einer räumlich vom Objekt getrennten Datenbank gespeichert werden. (z.B. Adresse und Geburtsdatum eines Menschen).


Metadaten sind prinzipiell also nicht zwingend an den "Container" der Daten gebunden die sie beschreiben sollen (so können also durchaus "physische Objekte" mit Hilfe elektronischer Metadaten beschrieben werden. Oder umgekehrt. (Beschriftete Datenträger)

Der Einsatz von Katalogkaten in Bibliotheken erfüllt denselben Zweck.

Wer schreibt Metadaten?

Wie am Hand des Beispiels mit den Schallplatten in den Kisten gesehen müssen Metadaten erst einmal erstell werden. Den Vorgang des Schreibens von Metadaten nennt man Indexieren. Dies kann entweder von einer Person, einem Indexierer geschehen (dann spricht man von Intellektueller Indexierung) oder automatisch geschehen (Automatische Indexierung). Auch eine Kombination aus beidem ist möglich (Computer gestützte Indexierung).

Im weiteren betrachten wir vorrangig die Intellektuelle Indexierung. Sie ist bislang (wenn sie von einem guten Indexierer ausgeübt wird) qualitativ die beste Form der Indexierung.

In Bibliotheken erstellen meist qualifizierte Bibliothekare den Index der dann in die Metadaten aufgenommen wird. Dieses Verfahren lässt in der Regel ein sehr gutes Suchergebnis zu.

Bei Digitaldokumenten sieht dies jedoch (bedauernswerter Weise) anders aus: Hier schreibt zumeist der Autor des Dokuments selbst die Metadaten. Er verfügt (notwendiger Weise) über gute Textkenntnisse, kann sich aber nicht (zwingend) in die Lage eines potentiellen Textreziepienten versetzen oder kennt die Arbeitsmethoden einer Suchmaschine oft nicht - für die er den Text ja schließlich aufbereiten möchte. Diese Methode ist zwar meist erfolgreicher als wenn ein Laie den Text indexiert, ein qualifizierter Indexierer leistet aber meist bessere Arbeit, die sich in besseren Trefferquoten bei der Suche niederschlägt. In der Praxis schreiben aber oft auch Webmaster oder Systemadministratoren Indexe. Sie sind zwar dann meist geübt im Erstellen von (sinnvollen Metadaten) verfügen aber nicht zwingend über Textkenntnisse.

im folgenden werden exemplarisch Metadaten von Webseiten behandelt:

Metadaten bei Webseiten

Wie bereits erwähnt ist es wichtig, Metadaten Spezifikationen entsprechend zu erstellen, damit sie von Suchmaschinen auch (effizient) verarbeitet werden können.

Standards bei der Vergabe von Metadaten bei Webseiten

Da sich das Internet schon immer sehr unorganisiert entwickelt hat, gab es lange Zeit keinen Konsens darüber welche Daten aus einer zu beschreibenden Datei in die entsprechende Metadatei einfließen sollten und wie die Syntax einer Metadatei auszusehen hat. Mehrere Vorschläge standen lange Zeit weitestgehend ungeachtet nebeneinander, wobei sie teilweise widersprüchliche Inhalte hatten. Doch zur Zeit entwickelt sich das Metadatenformat des Dublin Core Element Set immer mehr zum Standard im Internet. Die Entwickler dieses Formates arbeiten bezüglich einer Standardisierung eng mit den verantwortlichen Internet-Organisationen World Wide Web Consortium und Internet Engineering Task Force zusammen. Dennoch interpretieren gegenwärtig bei weitem nicht alle Suchmaschinen diesen Standard (gleich).

Wo befinden sich Metadaten einer Webseite?

Metadaten werden in den "Head" also in den Kopf des Codes einer HTML Seite geschrieben. D.h. sie sind für den Benutzer einer Webseite in der Regel nicht sichtbar. (Ein Browser zeigt dem Besucher einer Webseite in der Regel nur den "Body" also den Inhalt einer Webseite an). Erst ein Blick in den Quelltext einer Seite bringt sie an Licht. Dies kann der Benutzer erreichen indem er den Browser dazu auffordert den Quelltext der gerade besuchten Webseite anzuzeigen.

Welche Arten von Metatags gibt es?

HTML META Tags lassen sich nach übertragungstechnisch orientierte und inhaltlich orientierte, deskriptive META tags unterscheiden. Die inhaltlich orientierten Tags sind mit der Kennung META NAME bzw. META CONTENT versehen. Sie nehmen die Metadaten auf die das Webdokument beschreiben. Wobei sie mit dem NAME Element beginnen. Dieses beschriebt den Elementnamen z.B. "author". Dann folgt das CONTENT Element das die inhaltliche Beschreibung liefert.

Metadaten-Generatoren

Metadaten bieten also ein besonderes Potential zur Verbesserung der Internetrecherche. Allerdings stellt sich das Problem der kritischen Masse, d.h. es müssen genug Autoren von Webdokumenten Metadaten verwenden, um eine Verbesserung der Informationsrecherche im Internet zu erreichen. Um den Webautoren eine einfache und benutzerfreundliche Handhabung von Metadaten zu erlauben, haben verschiedene Suchmaschinenanbieter, Firmen und Institutionen Hilfswerkzeuge entwickelt, die mit formulargestützten Eingabemasken im World Wide Web das Erzeugen von Metadatensätzen erlauben. Diese Hilfswerkzeuge werden als Metatag-Generatoren.

Es gibt eine unüberschaubare Zahl von Metatag-Generatoren die dem Anwender das Erstellen von (sinnvollen) Metadaten erleichtern sollen. Oft halten sie sich jedoch selbst nicht an das Dublin Core Element Set. Daher ist ein kurzer Einblick in ihre Arbeitsweise zu empfehlen. Hier eine Bespielwebseite eines Metatag-Generators:

Das Nordic Metadata Project

Das Nordic Metadata Project ist beispielsweise ein kostenloser Service der Universitätsbibliothek Lund, Schweden. Die Webseite, zu erreichen unter:

http://www.lub.lu.se/cgi-bin/nmdc.pl?lang=en&save-info=on&simple=1

erzeugt nach Anklicken von 15 Elementen (der Nutzer wird hierbei mit kurzen Erläuterungen durch die Menüs geführt) Dublin Core Element Sets für die eigene Webseite. Per Cut&Paste kann der so generierte HTML Code vor den Body der Webseite übertragen werden.

Metadatenmanagement

Nun möchte ich als Autor einer Webseite wissen:

Wie werden Metadaten einer Webseite verwaltet?
Welche Metadaten sollen verwendet werden? (Suchmaschinen-Metadaten oder Dublin Core Metadaten)

Diese Frage lässt sich derzeit leider nicht eindeutig beantworten. Das liegt einerseits daran, dass es wie bereis angesprochen noch keinen Standard für Metadaten gibt. Dublin Core wird zwar zugeschrieben dass das Format das Zeug zum Standard hat und viele Autoren betrachten es bereits heute als "Quasistandard". Ein weiteres Problem liegt daran, dass Suchmaschinen ihre Suchalgorithmen nicht preis geben. Wir wissen also nicht wirklich, in wie weit sie DC beispielsweise auswerten und wie stark sie die Metadaten in ihre Suchanfragenberechnungen einfließen lassen. "Viel hilft viel" ist also das Motto vieler Webseitenautoren und man findet die Verwendung beider Schemata nebeneinander. Auf die Frage an welcher Stelle Metatags am sinnvollsten eingetragen werde sollen gibt es auch mehrere Antworten.
Es ist jedoch wohl gut sie möglichst am Anfang der Webseite, sprich auf der Leitseite und auf der ersten Hierarchieebene einzubauen.

Es ist jedenfalls sinnvoll, wichtige Webdokumente auf tieferliegenden Hierarchieebenen, die in die Suchmaschinenindexe aufgenommen werden sollen, direkt bei den Suchmaschinen anzumelden. Diese Webdokumente sollten dann auch mit Metadaten ausgestattet sein, um eine sinnvolle Indexierung zu ermöglichen.

Durch Verwendung des Suchmaschinen-META tags <META NAME="robots" CONTENT="INDEX,FOLLOW"> können Suchmaschinen beauftragt werden, in tiefere Hierarchieebenen vorzustoßen und diese zu indexieren.

Wie tief Suchmaschinen in die Hierarchieebenen von Websites vorstoßen ist nicht ganz klar.

Trotz dieser zugegebenermaßen nicht ganz transparenten Thematik sollten aber nicht nur Webmaster sondern auch Autoren von Webseiten für Metadaten ein gewisses Bewusstsein entwickeln, denn sie wissen besser um den Inhalt und die Zielgruppe ihrer Texte bescheid. Und es liegt letztlich in ihrem Interesse, dass ihre Webseite gefunden wird.

Auch bei der Aktualisierung des Inhaltes sollte man sich die Frage stellen, ob die Metadaten einer Anpassung bedürfen.

Die Zukunft der Metadatenstandards

Nach Meinung vieler Experten hat Dublin Core auseichende Fähigkeiten und die nötigen Normierungsbestrebungen einen aussichtsreichen Kandidaten für einen Internet-Metadatenstandard zu stellen. Er ist einfach und kann daher auch von Laienanwendern eingesetzt werden.

Insbesondere unter Verwendung von (richtigen) Metadaten Generatoren sollte es jedem Autor möglich sein, sein Dokument mit Metadaten umfassend zu beschreieben.

Damit erhöht er nicht nur die Chance, dass sein Inhalt von möglichst vielen Nutzern gefunden wird. Er kann auch selbst einen kleinen Betrag bei der Standardisierung des Internets leisten.


Literatur

Salton, Gerard; McGill, Michael J.: Information Retrieval: Grundlegendes für Informationswissenschaftler. - Hamburg [u.a.]: McGraw-Hill, 1987.

Gaus, Wilhelm: Dokumentations- und Ordnungslehre, Theorie und Praxis des Information Retrieval, Berlin, 1995

Links Virtuelles Handbuch Informationswissenschaft: Information Retrieval [[1]]

Virtuelles Handbuch Informationswissenschaft: Automatische und intellektuelle Indexierung [[2]]

Harald H. Zimmermann: Automatische Indexierung und elektronische Thesauri. [[3]]

Capurro, Rafael (2000): Einführung in die Informationswissenschaft. Kap. 5: Wissenserschließung und -darstellung: indexieren: [[4]]