Semantic Web

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Zur Navigation springen Zur Suche springen

Motivation

Das World Wide Web (WWW) hat die Verfügbarkeit von elektronischen Informationen drastisch verändert. Gegenwärtig gibt es mehr als eine Milliarde Webseiten und die Zahl steigt weiter rapide an. Dieses rasante Wachstum hat allerdings zur Folge, dass es immer schwieriger ist, Informationen wieder aufzufinden, zu organisieren und zu verwalten.

Zur Lösung dieser Probleme schlug Tim Berners-Lee – der Erfinder des WWW – das Semantic Web als Erweiterung des bestehenden Internets vor. Im Kern dieses Lösungsvorschlages geht es darum, die im Web verfügbaren Informationen mit einer maschinenverarbeitbaren Semantik zu annotieren.

Begriffserklärung

Semantik

Nach dem Duden bedeutet Semantik ein Teilgebiet der Linguistik, das sich mit den Bedeutungen sprachlicher Zeichen und Zeichenfolgen befasst, also mit der inhaltlichen Analyse von Wörtern, Sätzen oder Texten.

Semantic Web

Nach dem Erfinder Berners-Lee ist das Semantic Web eine Erweiterung des herkömmlichen Web, in der Informationen mit eindeutigen Bedeutungen versehen werden, um die Arbeit zwischen Menschen und Maschinen zu erleichtern: The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation (Berners-Lee, Hendler, Lassila, 2001). Mit dem Semantic Web soll das World Wide Web „intelligent“ werden – nicht nur Menschen, sondern auch Maschinen sollen dank dieser Technik die Internet-Inhalte "verstehen" und verarbeiten.

Vergleich zwischen WWW und SW

WWW.png Abbildung: World Wide Web aus W3C [1]

Semantic Web.png Abbildung: Semantic Web aus W3C [2]


Bislang verstehen Maschinen Webseiten lediglich als eine Ansammlung von Zeichen und Verknüpfungen, in der Darstellung Ressourcen mit Links. Die Maschinen "wissen" nicht, was für eine Ressource und was für eine Beziehung zwischen verschiedenen Ressourcen besteht. Im Vergleich dazu erlaubt erst das Semantic Web eine automatisierte Begriffs- und Ordnungsbestimmung. D.h. die Maschinen können "verstehen", worum es sich bei der Datenressource handelt und in welchem Zusammenhang sie mit anderen Ressourcen steht.

Entwicklung

Im Jahr 1998 veröffentlichte Tim Berners-Lee seine Idee von "Semantic Web". Seither ist das Semantic Web ein Thema des W3C (World Wide Web Consortium).

Das World Wide Web Consortium (W3C) ist ein Forum für Information, E-Commerce und Kommunikation. Diese Organisation entwickelt interoperierbare Technologien z.B. Spezifikationen, Richtlinien, Software und Werkzeuge, um das Web zu seinem vollen Potential zu führen.

Mit Semantic Web beschäftigt sich die W3C Semantic Web Activity, zusammen mit vielen anderen Forschern und industriellen Partnern. Sie haben die Aufgabe, die Standards festzulegen und die Technologien zu entwickeln, die die Daten im Web definieren und auf eine Weise miteinander verbinden, damit Information Retrieval, Datenautomatisieren, -integration und -wiederverwendung effektiver werden.

Kerntechniken und Bausteine des Semantic Web

Nach der Idee von Berners-Lee sollen nicht alle Wörter katalogisiert oder Seiten neu aufgesetzt werden. Das Semantic Web soll das bestehende Web nicht ersetzen, sondern erweitern. Die HTML-Seiten müssten nicht neu geschrieben, sondern durch eine semantische Beschreibung ergänzt werden. Zur Implementierung des Semantic Web müssen semantische Metadaten, also Daten, die Daten beschreiben, zu Informationsquellen hinzugefügt werden, so dass Maschinen die Daten anhand der beschreibenden semantischen Informationen effektiv verarbeiten können. Die relevanten Daten würden in einer maschinenlesbaren Sprache aufbereitet, um eine Kommunikation zwischen Maschinen zu gestatten. Bedingung für eine erfolgreiche Kommunikation ist eine gemeinsame Sprache.

Syntax: XML

Für die Syntax der Sprache steht XML (eXtensible Markup Language) zur Verfügung. XML ist der HTML ähnlich und ermöglicht auf eine einfache Weise die Repräsentation von Dokumenten im Web. Es erlaubt die Verwendung eigener Tags, so dass die Dokumente in einer, von dem Autor selbst definierten, Struktur dargestellt werden.

Semantik: RDF

Die Bedeutung definiert das RDF: Resource Description Framework. RDF beschreibt Ressourcen im Web. Es baut auf bestehenden XML- und URI-Technologien auf. URI steht für Uniform Resource Identifier. Sie dienen dem Identifizieren der einzelnen Ressourcen und zur Angabe von Statements über Ressourcen. RDF Statements beschreiben eine Ressource, die Eigenschaften einer Ressource und die Werte dieser Eigenschaften. Diese Statements werden oft als Tripel bezeichnet. Diese Tripel bestehen aus Subjekt, Prädikat und Objekt. Dies entspricht einer Ressource (Subjekt), einer Eigenschaft (Prädikat) und einem Eigenschaftswert (Objekt). Diese drei Elemente werden jeweils durch URI identifiziert.

Nachfolgend ist ein Beispiel für ein RDF Statement anhand eines einfachen englischen Satzes:

[Ressource]	 	[Eigenschaft]	 	[Wert]	 
The secret agent	is	 	        Niki Devgood	 
[Subjekt]	 	[Prädikat]	 	[Objekt]	 

RDF-Tripel werden oft grafisch folgendermaßen dargestellt:

Tripel-1.PNG

Abbildung aus ALTOVA [3]

Nachdem diese Tripel erstellt worden sind, können nun weitere Tripel erzeugt werden, um die Geheimagentin mit etwas anderem zu verknüpfen, z.B. können eine Email-Adresse und ein Bild von ihrem roten Kabriolett, wie im folgenden Graph, hinzugefügt werden.


Tripel-2.PNG

Abbildung aus ALTOVA [4]

Ontologie

Gegenwärtig ist das Web dezentral und unübersichtlich. Daher ist davon auszugehen, dass für ein und dasselbe Konzept im Web verschiedene URIs verwendet werden, etwa "zip code" in den USA und "Postleitzahl" in Deutschland. Wenn ein Programm mit diesen Informationen arbeitet, müsste es wissen, dass für diese Ressourcen unterschiedliche URIs verwendet werden, die aber das Gleiche bedeuten. Dieses Problem soll die dritte Basiskomponente des Semantic Web lösen – Ontologie.

Die "Ontologie" wird im Zusammenhang mit dem Semantic Web definiert als ein Schema, das die Hierarchien und Beziehungen zwischen verschiedenen Ressourcen ausdrücklich festlegt. Semantic Web-Ontologien bestehen aus einer Taxonomie und einer Reihe von Inferenzregeln, anhand derer Maschinen logische Schlüsse ziehen können.

Taxonomie

Eine Taxonomie ist in diesem Zusammenhang ein Klassifikationssystem, wie z.B. das wissenschaftliche System zur Einteilung der Pflanzen (Reich/Abteilung/Klasse/Ordnung usw.), bei dem Ressourcen auf Basis ihrer Beziehungen und gemeinsamen Eigenschaften in Klassen und Unterklassen gruppiert werden.

Inferenzregeln

Mit den Interferenzregeln sind Programmen anhand der definierten Vorbedingungen Schlussfolgerungen möglich. Ein einfaches Beispiel: Wird in einer Taxonomie "Tier – Säugetier – Hund – Pudel" definiert, so kann ein Programm mit nur der Information "Pudel" schlussfolgern, dass es sich um ein Säugetier der Gattung Hund handelt, und nicht beispielsweise um eine Vogelart oder ein Reptil.

RDF Schema (RDFS) und Web Ontology Language (OWL)

RDFS erstellt die Vokabulare, die Gruppen von verwandten RDF-Ressourcen und die Beziehungen zwischen diesen Ressourcen beschreiben. Ein RDFS-Vokabular definiert, welche Eigenschaften den RDF-Ressourcen in einem bestimmten Bereich zuzuweisen sind. Mit RDFS können weiterhin Ressourcenklassen erstellt werden, die gemeinsame Eigenschaften besitzen. Aufbauend auf demselben Tripel-Modell wie bei RDF, bestehen RDFS-Tripel aus Klassen, Klasseneigenschaften und Eigenschaftswerten.

In einem RDFS-Vokabular sind Ressourcen als Instanzen von Klassen definiert. Eine Klasse ist auch eine Ressource und jede Klasse kann eine Unterklasse einer anderen sein. Dank dieser hierarchisch aufgebauten semantischen Informationen sind Maschinen in der Lage, auf Basis der Eigenschaften und Klassen von Ressourcen deren Bedeutung zu ermitteln.

Grob gesprochen ist RDFS eine einfache Vokabularsprache zur Beschreibung der Beziehungen zwischen Ressourcen. Web Ontology Language (OWL) baut auf RDFS auf und ist ein viel umfangreicheres Vokabular zur Definition von Semantic Web Ontologien, und zwar zur Veranschaulichung der Hierarchien und Beziehungen zwischen verschiedenen Ressourcen. Da Taxomomien die hierarchischen Beziehungen zwischen Ressourcen ausdrücken, können OWL verwendet werden, um Ressourcenklassen Eigenschaften zuzuweisen und dieselben Eigenschaften auch an deren Unterklassen zu vererben. Außerdem unterstützt OWL auch Klassenaxiome wie z.B. subClassOf, disjointWith, usw. und Klassenbeschreibungen wie unionOf, intersectionOf, usw. Auch viele andere Konzepte wurden in OWL integriert, wodurch OWL zur umfangreichsten heute existierenden Standard-Ontologiebeschreibungssprache wurde.

Fallbeispiel: Verwendung von Semantic Web (vgl. [5])

Versetzen wir uns ein paar Jahre in die Zukunft. Sie arbeiten als Software-Berater und haben heute ein Arbeitsessen mit einem Ihrer wichtigsten Kunden. Seine Firma muss ein dringendes Projekt in ihrer Zweigniederlassung in San Francisco durchführen. Dafür braucht er Sie als Berater und bittet Sie, so bald wie möglich nach San Francisco zu fliegen, um mit der Arbeit zu beginnen. Was tun Sie nun? Sie nehmen Ihren Handheld Computer zur Hand, aktivieren den Semantic Web Agenten und weisen ihn an, einen Non-Stop-Flug nach San Francisco zu buchen, der morgen vor 10 Uhr Vormittag abfliegt. Wenn es möglich ist, hätten Sie gerne einen Sitz am Gang. Sobald Ihr Agent einen passenden Flug findet, in dem noch ein Sitz am Gang frei ist, bucht er den Flug mit Ihrer American Express Card. Gleichzeitig weist er Sie darauf hin, dass Sie daheim einen Zahnarzttermin versäumen und fügt eine Anmerkung zu Ihrem Kalender hinzu, dass Sie den Termin verschieben müssen. Als nächstes geben Sie an, dass Sie eine Limousine benötigen, um zum Büro des Kunden zu gelangen. Ihr Agent sucht daraufhin nach Limousinen-Services mit der Service-Bewertung "sehr gut" und bucht einen Fahrer, der Sie 30 Minuten nach Ankunft des Flugzeugs abholt. Außerdem reserviert Ihnen Ihr Agent ein Zimmer in Ihrem Lieblingshotel in San Francisco und sichert Ihnen mit Ihrer Reward Card-Nummer den günstigsten Preis. Schließlich aktualisiert der Agent Ihren Terminkalender, trägt die Reiseinformationen ein und druckt die Reisebestätigungen im Büro aus.

Mit nur wenigen Klicks hat Ihr Semantic Web Agent einen Flug und einen Limousinen-Service gefunden und den Terminkalender aktualisiert. Er hat Ihre Reiseplanung sogar mit Ihrem Terminkalender verglichen und den Konflikt mit dem Zahnarzttermin gefunden. Dazu musste der Agent aus verschiedenen Quellen stammende Informationen finden, interpretieren, miteinander kombinieren und darauf operieren.

Dieses Beispiel für die Anwendung des Semantic Web ist natürlich noch Zukunftsmusik. Aber es hat damit das Potential von Semantic Web-Technologien dargestellt. Ob die Vision Wirklichkeit wird, zeigt sich erst in Zukunft.

Der Semantic Web Agent basiert nicht auf Künstlicher Intelligenz, sondern auf strukturierten Informationen und Inferenzregeln, die es ihm erlauben, die Beziehungen zwischen verschiedenen Datenressourcen zu "verstehen". Dabei versteht der Computer die Informationen zwar nicht wie ein Mensch, kann aber anhand der verfügbaren Informationen logische Verbindungen herstellen und Entscheidungen treffen.

Ausblick

Das World Wide Web hat die Welt der Informationen revolutioniert. Millionen von Menschen haben täglich Zugang zum Web, produzieren und aktualisieren Informationen in jeglicher Form. Nun wird das Semantic Web zu einer Evolution des Webs führen. Für manche bietet es einen Komfort an, mit dem ihr PDA, ihr Laptop, ihr Desktop, ihr Server und ihr Auto miteinander kommunizieren können. Für die anderen ist es möglich, dass die vorher mühsam von den Menschen getroffenen Entscheidungen automatisch im Semantic Web gemacht werden können. Einige Verfechter des Semantic Web behaupten sogar, dass es zu einer Evolution des menschlichen Wissens selbst führen wird, da es Menschen dadurch zum ersten Mal möglich sein wird, die Unmengen der auf dieser Welt vorhandenen Daten auf relevante und produktive Art zu filtern und zu kombinieren.

Aber andererseits ist zu beachten, dass die Implementierung von RDF, OWL und dem Semantic Web schrittweise erfolgen wird. Eine flächendeckende Ausbreitung derartiger Konzepte scheint nur langfristig realisierbar. Derzeit sind die meisten Homepage-Besitzer bereits mit der Erstellung von einfachen HTML-Seiten überfordert, von komplexeren Techniken wie XML und RDF oder URI ganz abgesehen.

Relevante Links

  • Semantic Web Activity: [6]
  • The 3rd Annual European Semantic Web Conference: [7]
  • International Semantic Web Conference (ISWC): [8]
  • Semantic Web Community Portal: [9]
  • Semantisches Web: [10]

Quellen

  • Altova (Hrsg.): Was ist das Semantic Web. Online verfügbar unter: [11], letzter Zugriff: 31.01.2006
  • Berners-Lee, Tim; Hendler, James; Lassila, Ora (2001): The Semantic Web. A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities. Online verfügbar unter: [12], letzter Zugriff: 31.01.2006
  • Berners-Lee, Tim; Miller, Eric (2002): The Semantic Web lifts off. Online verfügbar unter: [13], letzter Zugriff: 31.01.2006
  • Bestle, Tristian (2004): Das klügere Web. In: Internetworld, Band 6, S.78-79.
  • Swartz, Aaron (2002): The Semantic Web In Breadth. Online verfügbar unter: [14], letzter Zugriff: 31.01.2006
… weitere Daten zur Seite „Semantic Web
Nach dem Duden bedeutet Semantik ein Teilgebiet der Linguistik, das sich mit den Bedeutungen sprachlicher Zeichen und Zeichenfolgen befasst, also mit der inhaltlichen Analyse von Wörtern, Sätzen oder Texten. +