Siemens-Forscher lösen das ‘Cocktail-Party’-Problem
Unterhalten sich mehrere Menschen in einem Raum gleichzeitig, so klingt das wie in einer scheinbar unentwirrbaren Klangglocke.
So standen nicht nur neugierige Partygäste, die sich für das Gespräch am Nachtbartisch interessieren, sondern auch die Forschung, vor dem so genannten ‘Cocktail-Party’-Problem. Das menschliche Gehör kann ab einer gewissen Anzahl schlicht die einzelnen Stimmen nicht mehr auseinander halten. Das Gesagte geht im babylonischen Gewirr unter.
Nun haben Forscher der Universität Missouri-Columbia die Nuss geknackt und eine Software geschrieben, die ein bestimmtes Geräusch vom Umgebungslärm isolieren kann. Radu Balan, ein Siemens-Forscher, sowie die beiden Mathematikprofessoren Dan Casazza und Dan Edidin haben bei einer Demonstration ihrer Software, Wörter aus einer ‘Party’ isoliert und rekonstruiert.
“Unsere Lösung nennen wir ‘Signal-Rekonstruktion ohne Geräusch-Phase'”, so Edidin. Dabei könne ein ‘Signal’ eben auch das Gewirr von 25 Personen sein, die sich miteinander unterhalten. “Unsere Lösung zeigt, dass wir jede Stimme individuell herausziehen können. Jedoch nicht nur die Worte, sondern auch die gesamte Stimmcharakteristik jedes Individuums.” Das Problem sei also mathematisch lösbar.
Die Anwendungsgebiete sind vielfältig. Da die Mittel für dieses Forschungsprojekt von der National Science Foundation und der National Security Agency stammen, wird diese Lösung wohl vorrangig für Spionage, Verbrechensbekämpfung und auch Terrorabwehr eingesetzt werden.
Die Lösung mag mathematisch sein, einen Algorithmus für diese Aufgabe konnten die Forscher jedoch nicht entwickeln. Das Programm basiere auf einem ‘neuronalen Netz’ und lehre sich gewissermaßen selbst, erklären die Forscher. Es fuße auf Versuch und Irrtum. Daher sei es auch äußerst schwierig, das Programm zu vervielfältigen. Theoretisch könne die Software auf diese Art Aufnahmen, die mit einem minderwertigen Mikrophon aufgenommen wurden, vollständig entwirren.
Bestehende Lösungen können zwar teilweise einzelne Wörter isolieren, bekommen jedoch Probleme, wenn Personen mit ähnlicher Stimmcharakteristik aufgenommen wurden. Die neue Lösung arbeite wesentlich exakter, erklärten die Forscher.