Was Sprachtechnologie für Unternehmen leistet
Egal, ob Diktieren am PC, Telefonieren via Skype, oder Sprachsteuerung mit Apples Siri – digitale Sprachtechnik ist heute überall. Auch Unternehmen können Vorteile daraus ziehen. Silicon stellt die spannendsten Lösungen vor und testet Produkte, die die Produktivität deutlich steigern.
Kürzlich wieder mal auf Arte: Stanley Kubricks legendärer Science-Fiction-Klassiker “2001: Odyssee im Weltraum” aus dem Jahr 1968. Einige der Techniken, die in dem Film vorgestellt wurden, gehören heute zum Alltag der Hightech-Welt. Die Videotelefonie etwa oder Computer mit künstlicher Intelligenz oder Tablet Computer. Nur eine Technologie aus dem Film wird heute zwar vielfach genutzt, ist aber bei weitem noch nicht perfekt.
Das wird deutlich, wenn man sich die Szenen mit dem heimlichen Star des Films, dem fiesen Bordcomputer HAL 9000 ansieht. Der ist nicht nur hochintelligent, er kommuniziert auch mit den Astronauten wie ein Mensch. Er erkennt Stimmen, versteht alles, was man ihm sagt und antwortet mit perfekt natürlicher Stimme.
Genau hier – im Bereich Spracherkennung und Sprachausgabe – hat die Computertechnik im letzten Vierteljahrhundert enorme Fortschritte gemacht. An die des HAL 9000 reicht sie zwar noch lange heran, aber immerhin ist die Technik so weit, dass sie produktiv verwendet werden kann. Egal, ob als Diktiersoftware im Büro, bei der Übersetzung zwischen verschiedenen Sprachen oder bei der Umwandlung von Texten in gesprochene Sprache (Text-to-Speech), richtig eingesetzt bringt die Technik enorme Vorteile.
In diesem Beitrag geht silicon.de auf die Highlights der Sprachtechnologie und die wichtigsten Lösungen ein. Dazu gehören nicht nur Spracherkennungsprogramme, sondern auch Software zum Umwandeln von Text in Sprache, ein Übersetzungsprogramme sowie empfehlenswerte Headsets. Einige Produkte wurden von dafür silicon.de exklusiv getestet.
Diktieren am PC
Das Diktieren längerer Texte am PC bildet seit vielen Jahren eine Alternative zum Tippen. Zu schätzen wissen das vor allem Anwender, die den Zehn-Finger-Tippkurs in der Schule geschwänzt haben und sich beim Schreiben dauernd vertippen. Berufsgruppen wie Mediziner und Juristen, die ihre Briefe mit immer demselben Wortschatz und typischen Formulierungen verfassen, gehören zu den Stammkunden der Spracherkennung.
Führende Hersteller sind hier Nuance mit Dragon Naturally Speaking sowie der deutsche Anbieter Linguatec mit den verschiedenen Versionen von Voice Pro 12. Mit diesen Programmen kann man nicht nur Briefe und E-Mails diktieren, sondern auch im Internet recherchieren und den PC steuern. Einen ausführlichen Praxistest von Dragon Naturally Speaking 13 und eine umfassende Funktionsbeschreibung finden Sie auf der silicon.de-Schwestersite ITespresso. Ab September 2016 kommt mit Dragon Professional Individual deren Version 15 in den Handel.
Spracherkennung auf dem Server
Spracherkennung ist nach dem Willen der Hersteller inzwischen wesentlich mehr als nur eine Diktiersoftware. Komplette Spracherkennungslösungen im Unternehmen sind heute von jedem Endgerät aus abrufbar, also vom Smartphone unterwegs, vom Tablet im Meeting oder vom Notebook im Hotelzimmer aus.
Ein Beispiel für die große Unternehmenslösung ist Voice Pro Enterprise 4.0 von Linguatec. Die Software ist auf dem Unternehmens-Server installiert, auf dem auch die eigentliche Erkennung der Sprachbefehle oder Diktate stattfindet. Benutzer greifen über die Client-Software auf dem Endgerät darauf zu. Diktate werden auch als Audiodatei gespeichert, auf diese Weise kann das via in Text umgewandelte Diktat später noch kontrolliert werden.
Für Mediziner und Juristen gibt es Versionen mit eigenem Fachwortschatz, bei Medizinern beispielsweise für Fachgebiete wie Chirurgie, Radiologie oder Augenheilkunde. In ganz ähnlicher Weise bietet auch Nuance besondere Versionen von Dragon Naturally Speaking speziell für Juristen oder Mediziner. Auch die Nuance-Lösungen gehen inzwischen weit über die klassische Desktop-Diktiersoftware hinaus. Und auch bei Nuance lassen sich die Diktate für eine spätere Transkription oder per Hand oder Kontrolle des Textes erst mal auf dem Server speichern.
Diktieren auf dem Smartphone: Dragon Anywhere
Die Spracherkennung ist mittlerweile auch auf Tablet und Smartphone angekommen. Dragon Anywhere beispielsweise ist für Apples iOS oder Smartphones beziehungsweise Tablets mit Android konzipiert. Die Erkennung findet dabei auf dem Server statt. Per Sprachbefehl können die Diktate in der Cloud gespeichert oder per Mail an Kollegen weitergeleitet werden. Außerdem können Diktat-Texte im Online-Notizdienst Evernote gespeichert oder in Word geöffnet werden. Mit Dragon Anywhere kann der Nutzer seine Texte auch formatieren und bearbeiten.
Der einzige Haken: Der Nutzer muss seine Zustimmung geben, dass alle Audiodaten “in den Vereinigten Staaten von Amerika gespeichert und verarbeitet werden”. Vertrauliche Unternehmensinfos sollte man also nicht gerade mit Dragon Anywhere bearbeiten.
Spracherkennung als Passwort
Auch als biometrische Zugangserkennung ist die menschliche Stimme geeignet. Nuance beispielsweise liefert mit Vocal Password eine Technik zur Überprüfung der Nutzeridentität. Unternehmen können die Software auf ihrer Website installieren und ihren Kunden somit die bequeme Authentifizierung über ihre eigene Stimme anbieten. Denkbar wäre die Anwendung beispielsweise für Webshops.
Der Kunde muss zuerst eine Passphrase dreimal hintereinander vorsprechen. Daraus erstellt die Software einen Stimmabdruck. Will sich der Kunde beim nächsten Mal mit dem Smartphone einloggen, muss er seine Passphrase ins Smartphones sprechen, Vocal Password vergleicht die Audiodaten mit dem hinterlegten Stimmprofil und gibt den Zugang frei. Laut Nuance ist auch eine “Blacklist” mit den Stimmprofilen “bekannter Betrüger” hinterlegt, mit der ebenfalls ein kurzer Abgleich stattfindet.
Sprachsteuerung für die Website: Nina Mobile
Nina Mobile von Nuance ist ebenfalls als biometrische Zugangskontrolle für Webseiten geeignet, kann darüber hinaus aber noch viel mehr. Nina Mobile ermöglicht dem Besucher auf dem Smartphone per Sprachanweisung durch die Website zu navigieren.
Der Kunde kann dabei laut Hersteller nicht nur von Menüpunkt zu Menüpunkt springen, sondern komplexe Anweisungen geben, beispielsweise “Bezahle meine Kontogebühren”. Zusätzlich ermöglicht die App aber auch das ganz normale Antippen von Menüpunkten oder Eintippen von Text. Für Unternehmen gibt es ein Software Development Kit, mit dem sie die Software implementieren und auf ihre speziellen Bedürfnisse anpassen können.
Siri, Google Now und Cortana
Auch Apple, Google oder Microsoft haben die Spracherkennung mittlerweile in ihre Mobilbetriebssysteme eingebaut. Der Nutzer soll damit das Handy steuern, Kontakte und Termine aufrufen und natürlich kurze Texte schreiben, etwa für E-Mails oder WhatsApp-Nachrichten.
Besonders reizvoll ist die Suchfunktion, mit deren Hilfe der Nutzer seine Websuche in natürlicher Sprache mit ganzen Sätzen startet. Er könnte sich mit der Frage “Wie komme ich mit öffentlichen Verkehrsmitteln am besten zum Flughafen?” direkt die passende Verkehrsverbindung raussuchen lassen. Die Sprachdaten werden dabei auf dem Server verarbeitet, sprich, in Text beziehungsweise Programmbefehle umgewandelt.
Vorreiter in dieser Hinsicht ist Siri von Apple. Siri steht für Speech Interpretation and Recognition Interface und wurde erstmals 2011 beim iPhone 4s vorgestellt. Google Now wurde 2012 in Android 4.1 “Jelly Bean” eingeführt und lässt sich auch als App bei Google Play auf das Smartphone oder Tablet laden.
Microsofts Cortana im Kurztest
Microsoft beschäftigt sich schon sehr lange mit Sprachtechnologie. Bereits Windows Vista hatte eine passable Spracherkennung integriert. Seit Windows Phone 8.1 gibt es nun die Spracherkennung Cortana, die man beispielsweise auf jedem Nokia Lumia ausprobieren kann. Auch Windows 10, das bekanntlich auch auf Desktop und Tablets läuft, ist mit Cortana ausgestattet.
Ebenso wie die Mitbewerber von Google und Apple versteht Cortana komplexe Sätze und erlaubt die Steuerung des Smartphones. Der Nutzer kann per Spracheingabe Kalendereinträge erstellen, sich an Termine erinnern lassen, das Telefonbuch öffnen, SMS oder WhatsApp-Nachrichten verschicken und manches mehr. Im Kurztest funktioniert das erstaunlich gut.
Richtet man die Sprachsoftware ein, wird man nach persönlichen Vorlieben und Hobbys gefragt. Das soll helfen, die Antworten von Cortana noch genauer zu gestalten. Zudem funktioniert die Technik besser, wenn der Nutzer die Ortungsfunktion des Geräts einschaltet. Dann berücksichtigen die Antworten bei Internetrecherchen auch den momentanen Standort.
Auch Cortana speichert die Sprachdaten auf dem Server von Microsoft. Außerdem wird die persönliche Sprechweise des Nutzers zu einem “personalisierte Sprachmodell” verarbeitet, das soll die Erkennungsgenauigkeit verbessern. Und ebenso wie Siri und Google Now speichert Microsoft eine Menge persönlicher Daten.
Fazit: Wer ungern tippt oder sich dauernd vertippt, für den ist Cortana mitunter eine echte Hilfe. Die Datenschutzbedenken sind aber nicht von der Hand zu weisen. Da ist es beruhigend, dass man Cortana auch abschalten kann. Außerdem lässt sich die standardmäßig mit Edge und Bing durchgeführte Websuche mit wenig Aufwand auch auf Google und Chrome umleiten.