Ein statistischer Ansatz zur maschinellen Erstellung
eines syntaktisch orientierten Wortartensystems
Abstract: Es wird ein auf unterschiedliche Sprachen anwendbares statistisches Verfahren
vorgestellt, mit dem es auf der Grundlage des gemeinsamen Vorkommens von Wörtern in Texten
möglich ist, die Wortformen einer Sprache in syntaktisch orientierte Wortklassen einzuteilen.
Dabei soll erreicht werden, daß nur solche Wortformen derselben Wortart angehören, die an
allen Auftretensstellen, in der diese Wortart in einem Textkorpus auftritt, eingesetzt werden
können, ohne daß die syntaktische Korrektheit der betroffenen Sätze beeinträchtigt wird.
Ansatzpunkt für eine solche Einteilung ist die Beobachtung, daß Wortformen, die in Sätzen
dieselbe syntaktische Funktion einnehmen können, bei Betrachtung großer Textkorpora in der
Regel eine ähnliche Verteilung ihrer Vorgänger- und Nachfolgerwörter aufweisen.
Beispielsweise wird maskulinen Substantiven (Nominativ Singular) in der Regel häufig das
Wort "der" vorangehen und das Wort "ist" folgen. Die maschinelle Wortklassifizierung wird nun
in der Weise vorgenommen, daß Wortformen, die in einem Korpus eine gleichartige
Verteilung ihrer direkten Nachbarn aufweisen, derselben Klasse zugewiesen werden. Es zeigt
sich, daß die auf diese Weise erzeugten Wortklassen eine hohe Übereinstimmung mit
existierenden Wortartensystemen aufweisen. Problematisch ist allerdings die richtige
Klassifizierung mehrdeutiger Wortformen.
Paper im Postscript-Format
Home-page FASK
Home-page Reinhard Rapp