Automatisches Abstracting
Automatisches Abstracting
Dieser Artikel wird noch bearbeitet!
Erste Experimente automatische Abstracts herzustellen basierten auf dem Verfahren, relevante Sätze im Originaldokument nach vorgegebenen Kriterien zu erkennen, sie in eine bestimmte Reihenfolge zu bringen und in einer Sequenz auszugeben. Das Verfahren konzentriert sich auf Sätze, die folgende Kriterien erfüllen:
- Wörter, die eine hohe absolute oder relative Häufigkeit aufweisen
- „sprachliche Einheiten“ mit bestimmten syntaktischen Merkmalen (Wortklassenzugehörigkeit, bevorzugte Substantive und Grundmuster von Nominalphrasen)
- „sprachliche Einheiten“, die Titelwörter oder Begriffe aus der Positiv-Wortliste aufweisen
Darüber hinaus werden auch bevorzugt die sogenannten „topic- Sätze“ extrahiert. Diese sind dadurch gekennzeichnet, dass sie überwiegend am Anfang oder Ende eines Sinnabschnittes des Textes stehen (Absatz, Kapitel, Abschnitt). Über dies sind „topic- Sätze“ durch einleitende Schlüsselwörter gekennzeichnet (Bsp.: „Dieser Aufsatz behandelt...“, „Zusammenfassend...“).
Der erste Arbeitsschritt dieses Verfahrens besteht in der Erkennung von relevanten Sätzen. Nach der Identifizierung dieser Sätze erfolgt die Gewichtung der Abstracting- Kandidaten- Sätze, bei der auch statistische Assoziations- und Clustering- Verfahren zum Einsatz kommen. Hierbei können durch die Einstellung verschiedener cut- off- Werte unterschiedliche lange Abstracts erstellt werden.
Die relevantesten Sätze werden dann in der Reihenfolge ihres Vorkommens im Originaltext geordnet.
Durch dieses Verfahren entsteht jedoch der Nachteil der fehlenden Textkohärenz des produzierten Kurzreferats und daraus resultiernde Verständnisprobleme.
Spätere Entwicklungen des automatischen Abstractingverfahrens konzentrierten sich neben der Identifizierung von relevanten Sätze auch auf Textwissensstrukturen, die mit der Heranziehung von Weltwissen erkannt werden können. Die Kurzreferate werden folglich nicht mehr nur aus Texten abgeleitet, sondern größtenteils aus Wissensstrukturen generiert.