Kontextsensitive Rechtschreibfehlerkorrektur auf der Basis von Wortnachbarschaften
Diese Nachteile können mit Hilfe des hier vorgeschlagenen Korrekturalgorithmus vermieden werden. Dazu wird auf der Basis umfangreicher, für die jeweilige Anwendung möglichst repräsentativer Textkorpora ausgezählt, welche Wortpaare wie häufig in direkter Aufeinanderfolge auftreten. Diese gemessenen Häufigkeiten werden mit Erwartungswerten verglichen, die sich aus den Korpushäufigkeiten der beiden beteiligten Wörter ergeben. Der Fehlererkennungsalgorithmus betrachtet nun solche Wortpaare des zu korrigierenden Textes als potentiell fehlerhaft, deren gemessene Auftretenshäufigkeit im Textkorpus deutlich unter dem Erwartungswert liegt. Es zeigt sich, daß auf diese Weise die meisten Fehler, die sich aus der direkten Nachbarschaft von Wörtern erschließen lassen, diagnostiziert werden.
Bei der Generierung von Korrekturvorschlägen wird einerseits - wie auch sonst üblich - auf ein orthographisches Verfahren zurückgegriffen. Dieses liefert im obigen Beispiel Korrekturwörter wie etwa "fibel", "fidel", "ziel", "kiel" und "viel". Unter diesen erfolgt nun aber eine zusätzliche Auswahl nach der Wahrscheinlichkeit des Auftretens des jeweiligen Wortes im vorgegebenen Kontext. Dadurch wird in den meisten Fällen das korrekte Wort herausgefiltert.
Das Hauptproblem des geschilderten Verfahrens besteht darin, daß die gemessenen Paar-Häufigkeiten für seltene Wörter statistisch wenig abgesichert und damit unzuverlässig sind. Es werden daher Möglichkeiten diskutiert, diese Schätzungen zu verbessern.