Natürliche Sprache und Suchmaschinen

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Version vom 7. Juli 2011, 10:40 Uhr von Luckhardt (Diskussion | Beiträge) (→‎Quellen)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

In der heutigen Informationsgesellschaft ist es wichtig, in der Masse der vorhandenen Informationen die eigentlich relevante Information zu finden. Für diesen Zweck gibt es Suchmaschinen. Jedoch diese zu nutzen ist nicht einfach, es wird einiges an Wissen benötigt eine solche effektiv einzusetzen. Eine Suchmaschine, in der die natürliche Sprache genutzt werden kann, würde diesen Prozess um einiges erleichtern.

Mensch–Maschine–Kommunikation

Kommunikation – Interaktion

Wenn es um eine Suche über den Computer geht, besonders in natürlicher Sprache, entsteht eine Kommunikation zwischen Mensch und Maschine, dem Nutzer und der Suchmaschine. Der Nutzer möchte, dass die Maschine ihn im Idealfall so gut versteht, dass es zum bestmöglichen Ergebnis kommt. Da aber noch nicht gesagt werden kann, eine Maschine verstehe einen Menschen, kann auch nicht von Kommunikation gesprochen werden. Deshalb beschränkt sich das Handeln zwischen Mensch und Maschine auf Interaktion. Dabei beherrscht die Maschine nur eine endliche Anzahl an Befehlen, auf die der Mensch zurückgreifen muss. Siehe auch Mensch-Maschine-Kommunikation und Mensch-Computer-Interaktion.


Natürliche Sprache – Formale Sprache

Um eine Maschine, gleich welcher Art, zu nutzen, muss der Nutzer eine formale Sprache erlernen. Eine einzelne formale Sprache reicht jedoch nicht aus, um alle Maschinen oder auch nur alle Programme eines Computers nutzen zu können. Das bedeutet, für jede Maschine und jedes Programm muss wieder eine neue Sprache erlernt werden. Auch für Suchmaschinen werden solche formalen Sprachen benötigt, wenn sie effektiv genutzt werden sollen. Dies verhindert aber, dass es jedermann möglich ist, effektiv an gesuchte Informationen zu gelangen, da nicht jeder die passende Sprache beherrscht. Gerade in der heutigen Zeit, in der Informationen eine wichtige Rolle spielen, ist dies ein großer Nachteil. Mit der Möglichkeit einer natürlichsprachlichen Suche würde sich dieser aufheben.


Chatbots

1950 prophezeite Alan Turing, in 50 Jahren sei es für Chatbots möglich, so gut mit einem menschlichen Gesprächspartner zu kommunizieren, dass man den Unterschied zwischen einem menschlichen Gesprächspartner und einem Computer nicht mehr bemerken würde. Mittlerweile haben wir 2005 und alljährlich findet der Löbner Contest, ein abgewandelter Turing Test, statt. In diesem Test gewinnt der Chatbot, der es schafft einen menschlichen Mitbewerber zu übertreffen, die Goldmedallie. Bisher wurde sie noch nie verliehen. Stattdessen gab es nur Bronzemedallien an den jeweils besten Chatbot. Keiner der bisherigen Gewinner der Bronzemedallie konnte die eingegebenen Sätze verstehen. Die meisten erkennen Schlüsselworte und suchen eine passende Antwort, die vom Programmierer vorgegeben ist. Jedoch sind auch manche in der Lage eigene Antworten zu generieren, sie sind in der Lage neues dazu zu lernen und manche haben ein „Gedächnis“ über den Zeitraum des Gesprächs.

Intelligente Information Retrieval Systeme

Definition und Anforderung

definition::Die Definition von intelligenten Information Retrieval Systemen (IR–System) ist in der Literatur zwar nicht immer genau die gleiche, doch scheint es dabei um eine Verknüpfung von IR-System und Künstlicher Intelligenz (AI) zu gehen. Zudem sollte ein solches System in der Lage sein eine Frage in der natürlichen Sprache des Nutzers bearbeiten zu können.

Welche Anforderungen an ein solches System gestellt werden, sind dagegen ziemlich eindeutig, dabei kristallisieren sich drei Schwerpunkte heraus:

  • Eine automatische Indexierung von Dokumenten
  • Der automatische Aufbau eines Thesaurus
  • Die Möglichkeit, syntaktisch richtige und effiziente Suchfragen zu stellen

Die Schwerpunkte im Einzelnen

Wenn man die Methoden der automatischen Indexierung genauer betrachtet, kann man drei verschiedene Methoden unterscheiden:

  • Die statistische Methode sucht nach besonders häufigen Worten
  • Die probabilistische Methode versucht die Relevanzwahrscheinlichkeit zu bestimmen
  • Die linguistische Methode versucht den regelhaften Charakter der gesprochenen Sprache abzubilden

Keine dieser Methoden wird jedoch einem intelligenten IR-System gerecht, da sie sich viel zu sehr auf den Text beziehen und zu wenig auf den eigentlichen Inhalt. Deshalb ist eine automatische Indexierung für ein intelligentes IR–System ungeeignet. Eine Indexierung, die nicht rein automatisch funktioniert, sondern nur vom Computer gestützt wird, wäre bei weitem geeigneter. Dabei wird der Nutzer stark mit einbezogen.

Auch bei dem Aufbau eines Thesaurus ist die Einbeziehung des Nutzers sehr wichtig, denn diese kann Anpassungen gewährleisten. Der Aufbau eines Thesaurus kostet viel Zeit und Arbeit, deshalb wird von einem intelligenten IR-System erwartet, diesen automatisch aufzubauen. Gerade dabei wäre die Einbindung von künstlicher Intelligenz sehr hilfreich, denn in jedem Fall müsste ein solches System lernfähig sein.

Auch bei der Verarbeitung von natürlicher Sprache sind AI-Techniken gut einsetzbar. Natürlichsprachliche Suchsysteme können die Suche effizienter und effektiver machen, da die Nutzer-System-Interaktion vereinfacht wird und Suchfragen präziser formuliert werden können. Doch die natürliche Sprache hat sich wegen ihrer Komplexität noch nicht bei IR-Systemen durchgesetzt, stattdessen zeigt sich ein Trend zu visuellen Systemen und Hypertextsystemen.


Der Nutzer

In allen Bereichen des intelligenten IR-Systems kommt dem Nutzer eine wichtige Rolle zu. Also muss ein intelligentes IR-System nicht stärker automatisiert werden, sondern in erster Linie viel stärker den Nutzer mit einbeziehen.



Natürlichsprachliche Suche

Es gibt noch nicht viele Beispiele von Suchmaschinen, die tatsächlich schon mit natürlichsprachlichen Anfragen funktionieren. Einige davon sind im Bereich der Bibliothekskataloge zu finden. Es sind meist Projekte der Deutschen Forschungsgemeinschaft (DFG), die alle nach ähnlichen Prinzipien funktionieren. Die Suchmaschinen sind in der Lage semantisch-syntaktische Unterschiede zu erkennen, wie zum Beispiel:

  • „Wald im Unterricht“ oder „Unterricht im Wald“
  • „TV in den USA“ oder „USA im TV“

In OSIRIS ist der Anfang der Frage schon angegeben und diese ist nur noch zu vervollständigen. Damit wird der Nutzer dazu gebracht eine ganz bestimmte Formulierung zu verwenden. Dadurch werden die Fragen auf eine grammatikalische Form eingeschränkt und das Programm muss nur diese eine Form erkennen und verstehen können. In anderen Suchmaschinen, wie NLI-2 können die Fragen ganz frei formuliert werden. Aber in allen Fällen gibt es eine erkennbare Steigerung der Qualität der Suchergebnisse.

Es ist schwer zu sagen, wie sich die Technik in der Zukunft noch entwickeln lässt und was auf uns zukommen wird. Vielleicht ist man hier auf eine Grenze gestoßen, die nicht zu überwinden ist. Aber ansatzweise funktioniert die natürlichsprachliche Suche schon und wenn weiterhin AI-Techniken und der Nutzer mit einbezogen werden, ist es vielleicht bald möglich auch bei den großen Suchmaschinen mit natürlichen Anfragen zu arbeiten.

Quellen