Befehl nicht verstanden: Computer lernen hören
Computer haben klare Stärken. Sehen, Hören und Fühlen zählen bislang definitiv nicht dazu. Was das Gehirn scheinbar so mühelos bewältigt, stellt Computer vor unlösbare Aufgaben.
“Das Gehirn sucht permanent nach zeitlicher Struktur in der Umwelt, aus der es ableiten kann, was als nächstes passieren könnte”, erklärt der Wissenschaftler. Auf diese Weise kann das Gehirn etwa, basierend auf den sich langsam verändernden Informationen, die nächsten Laute häufig bereits erahnen. So wird, wenn sich das Gesprächsthema um den heißen Sommer dreht, der Wortbeginn “So…” eher in “Sonne” als “Sofa” enden.
Um ihre Annahmen auf die Probe zu stellen, entwarfen die Forscher ein mathematisches Modell, das die neuronalen Abläufe bei der Sprachverarbeitung stark vereinfacht nachahmt. Neuronale Strukturen wurden dabei mit Algorithmen nachgebildet, die akustische Reize auf verschiedenen zeitlichen Ebenen verarbeiten sollten. Tatsächlich gelang es so, ein System zu entwerfen, das Sprache verarbeiten und einzelne Sprachlaute und Silben erkennen kann. Anders als bisherige Spracherkennungssysteme war es zudem in der Lage, auch schneller abgespielte Sprache zu verstehen. Das System besaß zudem die Fähigkeit des Gehirns, die nächsten Laute “vorherzusagen”: Erwies sich eine Vorhersage dabei als falsch, weil die Forscher aus den bekannten Lauten eine unbekannte Silbe kombinierten, war das Modell fähig, den Fehler zu bemerken.
Die “Sprache”, mit der das Modell getestet wurde, war vereinfacht – sie bestand aus den vier Vokalen a, e, i und o, die sich jeweils zu “Silben” aus vier Lauten zusammensetzten. “Zunächst ging es nur darum zu prüfen, ob die prinzipielle Annahme stimmt”, erklärt Kiebel. Mit mehr Zeit und Mühe könne man aber auch die schwieriger voneinander abzugrenzenden Konsonanten einbeziehen und neben Lauten und Silben weitere Hierarchie-Ebenen für Wörter und Sätze einbauen. So ließe sich das Modell im Prinzip auch auf natürliche Sprachen übertragen.
“Interessant für die Neurowissenschaften ist, dass die Reaktionen des Modells dem ähnelten, was mit einem echten menschlichen Gehirn zu beobachten wäre”, sagt Stefan Kiebel. Dies deutet darauf hin, dass das Modell der Forscher den tatsächlichen Abläufen im Gehirn entspricht. Zugleich liefert das Modell neue Ansätze für die Weiterentwicklung von maschineller Spracherkennung.