Computerlinguistik
![]() |
Prof. Dr. Evelyn Christoph
- 1978
Abitur - 1978 – 1983
Studium und Diplom in Informatik an der mathematisch-naturwissenschaftlichen Universität des Saarlandes - 1984 – 1995
Geburt der Tochter - 1987
Geburt des Sohnes - 1989
Dissertation (Dr. rer.nat.) in Saarbrücken; Thema: Formale Sprachen und Grammatiken - 1995
Professorin für Computerlingustik
Die Computerlinguistik bringt dem Rechner das Sprechen bei, so dass er die Menschen verstehen und Auskunft geben kann. Der Computer lernt, auf Befehle des Menschen zu reagieren und sie auszuführen.
Konkrete Anwendungen werden im täglichen Leben immer wichtiger, so sind z.B. im vereinten Europa Fremdsprachenkenntnisse absolut notwendig. EU-BürgerInnen können erst dann von den Vorteilen der völligen Bewegungs- und Niederlassungsfreiheit profitieren, wenn sie über ausreichende Sprachkenntnisse verfügen.
Um den damit verbundenen steigenden Bedarf an Fremdsprachenunterricht zu decken, bietet sich die Nutzung des Computers in der Ausbildung an. Auf dem Forschungs- und Anwendungsgebiet Computer Aided Language Learning (=CALL) existiert bereits eine Vielzahl von Fremdsprachentutoren, die jedoch die Erwartungen der Benutzenden nicht in vollem Maße erfüllen können.
In den letzten Jahren wurden Theorien des Fremdsprachenlernens entwickelt, die das Ziel haben, die dabei ablaufenden kognitiven Prozesse zu modellieren. Solche Theorien gehen davon aus, dass die Lernenden unbewusst immer wieder neue Hypothesen über die Fremdsprache bilden und diese testen. Bei der Hypothesenbildung gehen sie von ihrer Erstsprache bzw. von schon erworbenen Fremdsprachen aus, was zu Fehlleistungen in der Fremdsprache (negativer Transfer) führen kann.
Projekte an Universitäten beschäftigen sich z.B. mit der Planung und Implementierung eines intelligenten Fremdsprachenlernsystems für den Individualunterricht von Erwachsenen mit Deutsch als Erstsprache und Englisch als Zielsprache.
In einem ganz anderen Projekt, Nessy, wird ein Geschichtenerzähler entwickelt, dessen Geschichten an den Verlauf eines Schachprogramms angelehnt sind. Dabei werden die einzelnen Schachfiguren mit Eigenschaften versehen, die ihre Wesensart und die Beziehung zu anderen Figuren beschreiben. Diese Eigenschaften beeinflussen die Auswahl des nächsten Spielzugs, die nicht dem Schachprogramm überlassen bleibt, sondern von der Inhaltsplanung vorgenommen wird. So ist es möglich, Aspekte wie die Struktur des Textes und die Dramatik der Geschichte bereits bei der Inhaltsplanung zu berücksichtigen. Die Inhaltsplanung gliedert sich deswegen in mehrere Module auf, die einzelne Teilaspekte der Realisierung guter und »lebendiger« Geschichten repräsentieren.
Spracherkennung – wie Technik gesprochene Worte erkennen kann
„Es wäre schön, wenn ich meinem Computer sagen könnte, was er tun soll!“ Dieser Satz ist sicher schon so Manchem entfahren. Am besten natürlich, wenn der Computer das täte was man wolle, auch wenn wir es nicht so genau ausdrücken. Denn genau letzteres prägt doch häufig den Umgang mit PC: eine knappe, genaue Formulierung dessen, was der Computer tun soll.
Wie wird Sprache erkannt?
Für die Spracherkennung werden unterschiedliche Verfahren eingesetzt, z.B. Neuronale Netze, stochastische Verfahren, aber auch Streckungs- und Stauchungsverfahren. Bei der Analyse des Sprachsignals werden die Worte des Benutzers mit gespeicherten Mustern verglichen. Das ist problematisch, da Menschen dasselbe Wort nicht zweimal identisch aussprechen Es gibt also immer Abweichungen des Gesprochenen von zuvor gespeicherten Mustern. Diese Abweichungen sind allerdings nicht linear, da die Länge der Vokale im allgemeinen mehr verändert werden kann als die der Konsonanten. Um trotzdem bestimmen zu können, ob es eine Übereinstimmung gibt, müssen die Sprachmuster demzufolge in nicht linearer Weise gedehnt oder gestaucht werden. Die Schwierigkeit ist dann, festzulegen, bis zu welcher Abweichung ein Wort als erkannt gelten soll und ab wann ein anderes Muster und somit eine andere Bedeutung zugeordnet werden soll. Zuordnungen zu falschen Mustern resultieren in Fehldeutungen.
Die Erkennungsrate, d.h. der Anteil richtig erkannter Wörter, ist heute für einen flächendeckenden Einsatz spracherkennender Systeme noch unzulänglich. Die beste Erkennungsrate haben Systeme, die vom Benutzer individuell trainiert werden, in derselben Umgebung trainiert wie eingesetzt werden und bei denen der Benutzer deutlich in abgehackter Sprechweise spricht; am schlechtesten entsprechend solche, für die gar kein Training notwendig ist, und die der Benutzer in natürlicher (fließender, auch ungrammatischer) Form in beliebig geräuschbehafteten Umgebungen einsetzen kann.
Neben den eben beschriebenen spracherkennenden Systemen gibt es Diktiersysteme, die eine Transliteration der gesprochenen Äußerung vornehmen, und sprachsteuernde (Dialog-) Systeme.
Der nächste Schritt: Sprachverarbeitung
Für die Interaktion des Menschen mit einem System durch gesprochene Sprache sind nicht nur technische Probleme zu lösen. Die reine Erkennung gesprochener Kommandos reicht für viele Anwendungen nicht aus. Das Verstehen einer Äußerung, d.h. grammatische Überprüfung und Interpretation des Gesagten, ist notwendig.
Der Unterschied zwischen einem spracherkennenden und einem sprachverstehenden System läßt sich an einem Beispiel illustrieren:
Ein Benutzer fragt ein System: „Wann fährt der nächste Zug nach Berlin?“ Ein spracherkennendes System gibt (auf dem Bildschirm) aus: „Wann fährt der nächste Zug nach Berlin?“. Ein sprachverstehendes System dagegen beantwortet die Frage und gibt z.B. aus: „Um 12 Uhr 30“.
Sprache verarbeiten reicht nicht, Sprache muß auch “verstanden“ werden...
Welche Sprachphänomene für die Erkennung Probleme bereiten, ist auch abhängig von der verwendeten Sprache. So ist ein Sprecher im Deutschen, einer stark flektierenden Sprache, relativ frei in der Wortfolge. Ein Satz wie „Der Hund biß den Mann“ kann auch in „Den Mann biß der Hund“ umformuliert werden. Versucht man eine solche einfache Umstellung im Englischen (The dog bit the man. ‡ The man bit the dog.) wird plötzlich aus dem Beißenden der Gebissene – eine nicht unwesentliche Änderung in der Bedeutung... und der Schmerzempfindung!
Weitere Fehlinterpretationen können bei der Verarbeitung von sogenannten Homophonen - Wörtern, die gleich klingen, aber eine unterschiedliche Bedeutung haben - auftreten. Dieser Mehrdeutigkeiten sind sich Menschen beim Sprechen häufig gar nicht bewußt, sie interpretieren korrekt auf Grund ihres Weltwissens um den Kontext der Äußerung. Damit auch ein System verschiedene Bedeutungen voneinander unterscheiden kann, muß es über einen „Verstehensprozeß“ verfügen.
Beispiel:
„Ich habe Q gesagt.“ ist nicht gleich „Ich habe Kuh gesagt.“
Diese Ambiguitäten auf der Wortebene lassen sich erweitern auf Satzebene, z.B.
Andi sieht Anna mit dem Fernglas (wer hat das Fernglas?)
„Bringe mir mal die Zitronenschale!” ( Bedeutung z.B. Schale einer Zitrone oder Schale, in der sich Zitronen befinden)
Im Gegensatz zu Homophonen ist die Interpretation einzelner Homographe - Wörtern, die gleich geschriebenben werden, aber eine unterschiedliche Bedeutung haben – wie z.B. „Hochzeit“, „Staubecken“ oder „Wachstube“, oder auch ganzer Sätze: „Er wollte den Fußgänger umfahren“ (ihn überfahren oder um ihn herumfahren) – nur bei der Verarbeitung geschriebener Sprache kontextabhängig notwendig. Durch die Betonung in einer gesprochenen Äußerung hingegen wird die Bedeutung deutlich. Woher aber „weiß“ ein System, wie es solche Wörter und Sätze aussprechen soll?
Darüber hinaus gibt es Mehrdeutigkeiten, die bei einer nachgeordneten semantischen Analyse auftreten, und die vom Menschen ohne Kontextwissen auch nicht aufgelöst werden können:
Die Begründung der Projektgruppe ist mangelhaft” (wer begründet bzw. was wird begründet?)
Was ist „gute“ Sprachqualität?
Zu einem Sprachdialog gehören die Erkennung und Verarbeitung gesprochener Eingabe wie auch die akustische Ausgabe.
Bei der Sprachausgabe hängt die Qualität stark von dem verwendeten Verfahren ab. Die beste Qualität liefern Systeme, die Gespeichertes wiedergeben. Dafür werden die auszugebenden Sätze zuvor von einem/r Sprecher/in genauso aufgenommen wie sie später zu hören sind. Die Stimme ist deutlich zu verstehen und die Satzmelodie (Prosodie) entspricht den Erwartungen des Hörers. Andere Verfahren führen eine sogenannte Teil- oder Vollsynthese durch, d.h. zu dem Zeitpunkt, zu dem die Ausgabe erfolgt, werden aus einzelnen Bausteinen (Phonen, Diphonen, Halbsilben oder Silben) die auszugebenden Sätze individuell zusammengesetzt. Das Ergebnis kann durchaus sehr natürlich, aber auch sehr unnatürlich klingen; die Satzmelodie muß mit generiert werden und die Übergänge zwischen den einzelnen Lauten müssen geglättet werden. Der Vorteil synthetisierender Systeme ist trotz geringerer Qualität, daß auf diese Weise jeder beliebige, nicht vorhersehbare, Text ausgegeben werden kann. Eine typische Anwendung dafür sind Vorlesesysteme.
Wie wird Sprachqualität gemessen?
Wie bemißt sich nun die Güte einer Sprachausgabe? Für den Benutzer steht die (subjektive) Verständlichkeit an oberster Stelle der Kriterien, gefolgt von der Natürlichkeit. Aber es gibt auch Verfahren zur objektiven Messung der Sprachgüte, wobei dann Kriterien wie Übertragungsqualität betrachtet werden.
In welchen Situationen werden sprachverarbeitende und sprachausgebende Systeme eingesetzt?
Da sind zuerst Systeme der Behindertenkommunikation zu nennen: zur Unterstützung Blinder bzw. Schwachsehender und Schwerstbehinderter (Sprachein- und –ausgabe), Tauber (Sprachlernen) oder motorisch Behinderter (Spracheingabe). Ferner in Umgebungen, in denen kein Tastatureinsatz möglich ist wie bei der Inventur in der Produktionshalle (Eingabe), der Anleitung zur Fehlerbehebung an einer Maschine (Ausgabe), an öffentlichen Orten (Kiosksysteme) oder bei Auskünften über Telefon.
Trends
Anwendungen für Sprachverarbeitung werden in der Zukunft einen immer breiteren Raum einnehmen, insbesondere in der Telekommunikation, wo der Trend zur Miniaturisierung der Geräte den Einsatz von Tastaturen (fast) unmöglich machen wird.

