Automatisches Abstracting: Unterschied zwischen den Versionen

Aus InfoWissWiki - Das Wiki der Informationswissenschaft
Zur Navigation springen Zur Suche springen
 
 
(10 dazwischenliegende Versionen von 5 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
=Automatisches Abstracting=
+
[[category:Informationstechnik]]
 +
 
 +
===Frühe automatische Abstraktingverfahren===
 +
Erste Experimente, automatische Abstracts herzustellen, basieren auf dem [[definition::Verfahren, relevante Sätze im Originaldokument nach vorgegebenen Kriterien zu erkennen, sie in eine bestimmte Reihenfolge zu bringen und in einer Sequenz auszugeben.]]
  
Dieser Artikel wird noch bearbeitet!
 
  
Erste Experimente automatische Abstracts herzustellen basierten auf dem Verfahren, relevante Sätze im Originaldokument nach vorgegebenen Kriterien zu erkennen, sie in eine bestimmte Reihenfolge zu bringen und in einer Sequenz auszugeben.
 
 
Das Verfahren konzentriert sich auf Sätze, die folgende Kriterien erfüllen:
 
Das Verfahren konzentriert sich auf Sätze, die folgende Kriterien erfüllen:
  
- Wörter, die eine hohe absolute oder relative Häufigkeit aufweisen
+
*Beinhalten von Wörtern, die eine hohe absolute oder relative Häufigkeit aufweisen
 +
 
 +
*Beinhalten von bestimmten syntaktischen Merkmalen  (Wortklassenzugehörigkeit, bevorzugte Substantive und Grundmuster von Nominalphrasen)
 +
 
 +
*Aufweisen von Titelwörtern oder Begriffen aus der Positiv-Wortliste
 +
 
 +
 
 +
Darüber hinaus werden auch bevorzugt die so genannten „topic- Sätze“ extrahiert. Diese sind dadurch gekennzeichnet, dass sie überwiegend am Anfang oder Ende eines Sinnabschnittes (Absatz, Kapitel, Abschnitt) des Textes stehen. Überdies sind „topic- Sätze“ durch einleitende Schlüsselwörter gekennzeichnet (Bsp.: „Dieser Aufsatz behandelt...“, „Zusammenfassend...“).
 +
 
 +
 
 +
===Funktionsweise===
 +
Der erste Arbeitsschritt des automatischen Abstracting besteht in dem Erkennen von relevanten Sätzen. Nach der Identifizierung dieser Sätze erfolgt die Gewichtung der Sätze, die für ein Abstract in Frage kommen. Hierbei kommen statistische Assoziations- und Clustering-Verfahren zum Einsatz. Durch die Einstellung verschiedener cut-off-Werte können unterschiedlich lange Abstracts erstellt werden.
 +
 
 +
 
 +
Die Sätze mit der stärksten Gewichtung werden dann in der Reihenfolge ihres Vorkommens im Originaltext geordnet.<br>
 +
Im Gegensatz zum intellektuellen [[Abstracting]] entsteht jedoch der Nachteil der fehlenden Textkohärenz des produzierten Kurzreferats und daraus resultieren Verständnisprobleme.
  
- „sprachliche Einheiten“ mit bestimmten syntaktischen Merkmalen  (Wortklassenzugehörigkeit, bevorzugte Substantive und Grundmuster von Nominalphrasen)
 
  
- „sprachliche Einheiten“, die Titelwörter oder Begriffe aus der Positiv-Wortliste aufweisen
+
===Neuere Entwicklungen===
 +
Forschung auf dem Gebiet des automatischen Abstracting  konzentrierte sich in den 1990er Jahren neben der Identifizierung von relevanten Sätzen auch auf Textwissensstrukturen, die mit der Heranziehung von Weltwissen erkannt werden können. Die Kurzreferate sollen folglich nicht mehr nur aus Texten abgeleitet, sondern größtenteils aus Wissensstrukturen generiert werden.
  
  
Darüber hinaus werden auch bevorzugt die sogenannten „topic- Sätze“ extrahiert. Diese sind dadurch gekennzeichnet, dass sie überwiegend am Anfang oder Ende eines Sinnabschnittes des Textes stehen (Absatz, Kapitel, Abschnitt). Über dies sind „topic- Sätze“ durch einleitende Schlüsselwörter gekennzeichnet (Bsp.: „Dieser Aufsatz behandelt...“, „Zusammenfassend...“).
+
===Quelle===
  
 +
* Kuhlen, Rainer: Abstracts-Abstracting-Grundlagen. In: Grundlagen der praktischen Information und Dokumentation. Hrsg.: Kuhlen, Seeger, Strauch. Saur-Verlag, München. 5.Auflage. 2004. S.201-203
  
Der erste Arbeitsschritt dieses Verfahrens besteht in der Erkennung von relevanten Sätzen. Nach der Identifizierung dieser Sätze erfolgt die Gewichtung der Abstracting- Kandidaten- Sätze, bei der auch statistische Assoziations- und Clustering- Verfahren zum Einsatz kommen. Hierbei können durch die Einstellung verschiedener cut- off- Werte unterschiedliche lange Abstracts erstellt werden.
+
===Verwandte Begriffe===
Die relevantesten Sätze werden dann in der Reihenfolge ihres Vorkommens im Originaltext geordnet.
 
Durch dieses Verfahren entsteht jedoch der Nachteil der fehlenden Textkohärenz des produzierten Kurzreferats und daraus resultiernde Verständnisprobleme.
 
  
 +
* [[broader::Informationserschließung]]
 +
* [[broader::Abstract]]
 +
* [[broader::Referat]]
 +
* [[synonymous::Maschinelles Referieren]]
 +
* [[related::Extracting]]
  
Spätere Entwicklungen des automatischen Abstractingverfahrens  konzentrierten sich neben der Identifizierung von relevanten Sätze auch auf Textwissensstrukturen, die mit der Heranziehung von Weltwissen erkannt werden können. Die Kurzreferate werden folglich nicht mehr nur aus Texten abgeleitet, sondern größtenteils aus Wissensstrukturen generiert.
+
[[category:Informationsarbeit]]
 +
[[category:Wissensrepräsentation]]

Aktuelle Version vom 5. Februar 2009, 11:25 Uhr


Frühe automatische Abstraktingverfahren

Erste Experimente, automatische Abstracts herzustellen, basieren auf dem Verfahren, relevante Sätze im Originaldokument nach vorgegebenen Kriterien zu erkennen, sie in eine bestimmte Reihenfolge zu bringen und in einer Sequenz auszugeben.


Das Verfahren konzentriert sich auf Sätze, die folgende Kriterien erfüllen:

  • Beinhalten von Wörtern, die eine hohe absolute oder relative Häufigkeit aufweisen
  • Beinhalten von bestimmten syntaktischen Merkmalen (Wortklassenzugehörigkeit, bevorzugte Substantive und Grundmuster von Nominalphrasen)
  • Aufweisen von Titelwörtern oder Begriffen aus der Positiv-Wortliste


Darüber hinaus werden auch bevorzugt die so genannten „topic- Sätze“ extrahiert. Diese sind dadurch gekennzeichnet, dass sie überwiegend am Anfang oder Ende eines Sinnabschnittes (Absatz, Kapitel, Abschnitt) des Textes stehen. Überdies sind „topic- Sätze“ durch einleitende Schlüsselwörter gekennzeichnet (Bsp.: „Dieser Aufsatz behandelt...“, „Zusammenfassend...“).


Funktionsweise

Der erste Arbeitsschritt des automatischen Abstracting besteht in dem Erkennen von relevanten Sätzen. Nach der Identifizierung dieser Sätze erfolgt die Gewichtung der Sätze, die für ein Abstract in Frage kommen. Hierbei kommen statistische Assoziations- und Clustering-Verfahren zum Einsatz. Durch die Einstellung verschiedener cut-off-Werte können unterschiedlich lange Abstracts erstellt werden.


Die Sätze mit der stärksten Gewichtung werden dann in der Reihenfolge ihres Vorkommens im Originaltext geordnet.
Im Gegensatz zum intellektuellen Abstracting entsteht jedoch der Nachteil der fehlenden Textkohärenz des produzierten Kurzreferats und daraus resultieren Verständnisprobleme.


Neuere Entwicklungen

Forschung auf dem Gebiet des automatischen Abstracting konzentrierte sich in den 1990er Jahren neben der Identifizierung von relevanten Sätzen auch auf Textwissensstrukturen, die mit der Heranziehung von Weltwissen erkannt werden können. Die Kurzreferate sollen folglich nicht mehr nur aus Texten abgeleitet, sondern größtenteils aus Wissensstrukturen generiert werden.


Quelle

  • Kuhlen, Rainer: Abstracts-Abstracting-Grundlagen. In: Grundlagen der praktischen Information und Dokumentation. Hrsg.: Kuhlen, Seeger, Strauch. Saur-Verlag, München. 5.Auflage. 2004. S.201-203

Verwandte Begriffe

… weitere Daten zur Seite „Automatisches Abstracting
Verfahren, relevante Sätze im Originaldokument nach vorgegebenen Kriterien zu erkennen, sie in eine bestimmte Reihenfolge zu bringen und in einer Sequenz auszugeben. +