Siri vs Google Assistant vs Alexa – Quo vadis Spracherkennung?

Als vor mehr als einem Jahr Alexa bei uns einzog, war die Begeisterung … nun ja, gedämpft. Wir kannten uns ja schon aus mit Spracherkennung. Siri sitzt in unserem iPad, und den Google Assistant in unseren Android-Smartphones wecken wir regelmäßig mit einem fröhlichen „OK Google“ auf. Nur mit der guten Tante Cortana reden wir nicht; aber wer tut das schon außer den Microsoft-Mitarbeitern, und die müssen das ja. Und dann kam auch noch diese sprechende Blumenvase von Google ins Haus. Begeisterung? Euphorie? Nichts davon. Wir bauten auch den vierten Zuhörer in unser Leben ein. Vielleicht weil Google Home als letztes kam, überzeugte es am wenigsten. Möglicherweise eher ein psychologisches Phänomen als eine beweisbare Tatsache. Aber fangen wir von vorne an…

Die Turing-Maschine - Urzelle der KI — Die Turing-Maschine – Urzelle der KI

Vorne ist, wo der Begriff „Künstliche Intelligenz“ (KI) für ein paar Jahre die dickste Sau war, die durch Digitalien getrieben wurde. Was hat man uns nicht alles versprochen, damals in den wilden Achtzigern und den wüsten Neunzigerjahren? Intelligente Roboter! Maschinen, die mit einem Menschen so sprechen, dass der Mensch nicht merkt, dass er mit einer Maschine spricht. Moment: Da war doch was – der so genannte Turing-Test. Mit dem, so die Idee des Computer-Genies Alan Turing, sollte eine Testperson herausfinden, ob er gerade mit einem Menschen diskutiert oder einer Maschine. Neulich hatten wir eine eher nicht so digital-freudige Freundin zu Besuch, und ich sagte leichthin: „Alexa, mach TV aus.“ Klar, dass sie ganz überrascht fragte, wer denn nun Alexa sei, die den Fernseher auszuschalten habe. Turing-Test bestanden, würde ich sagen.

Dabei ist Spracherkennung zunächst kein Teilthema der KI, so wenig wie auch die Bilderkennung. In beiden Fällen lässt sich das Problem nämlich einfach mit Hilfe von Datenbanken und roher Rechen-Power lösen. In beiden Fällen geht es nämlich darum, den Computer mit etwas zu füttern, das in Pixel aufgelöst ist. Das so entstandene Muster vergleicht die Maschine mit gespeicherten Mustern und reagiert entsprechend. Die legendäre IBM Shoebox konnte das schon am 21. April 1962! Aber zunächst bestätigte dieser Erfolg – die Schuhschachtel konnte Ziffern bis zwölf am Klang erkennen! – den alten Kernsatz der KI: Maschinen können Probleme mit Leichtigkeit lösen, die für Menschen schwierig erscheinen, weil sie in mathematischen Formeln beschreibbar sind. Aber Computer tun sich schwer, Aufgaben zu lösen, die von Menschen problemlos zu knacken sind, wenn sie eben nicht durch Datenbanken und Algorithmen zu fassen sind.

Womit wir bei Siri, Cortana, Alexa und dem Google Assistant sind. Einem mit Mikro ausgestatteten Computer das Wort „Halt!“ zuzurufen, ist ja so lange sinnlos wie der Rechner nicht weiß, was er anhalten soll. Die Maschine muss den Kontext erkennen. Ja, sie muss Kontexte ERLERNEN. Denn sonst müsste jeder User eines Sprachassistenten ja seinem persönlichen Sprachempfänger erstmal beibringen, was ein Fernseher ist, wofür das Wort Fortuna steht und dass er aus dem phonetischen „Böffburdschinong“ die Suche nach einem Rezept für Bœuf bourguignon abliest. Und hier setzt das Konzept an, mit dem die Anbieter der freundlichen Sprechpuppen uns helfen wollen; die lernen nämlich nicht von ihrem Herrchen bzw. Frauchen, sondern von allen Nutzern dieser Erde. Das hat nur ein klein wenig mit KI zu tun, aber sehr viel mit Datenschnüffeln. Denn den genannten Damen ist ja gemein, dass sie nur funktionieren, wenn sie mit dem Internet verbunden sind.

Intelligente Sprachassistenten - eine direkte Folge von Big Data — Intelligente Sprachassistenten – eine direkte Folge von Big Data

Denn: Die intelligente Spracherkennung ist eine direkte Folge von Big Data. Big sind nach dem Wunsch der Betreiber die Mengen an gesprochenen Daten der Nutzer … und deren Zufriedenheit mit dem, was der jeweilige Assi daraus gemacht hat. Wenn in den Sprachgebieten, in denen Siri & Co. wirken, 100.000 Individuen auf ganz verschiedene Weise „Bœuf bourguignon“ gesagt haben und – beispielsweise – 92.000 mit der Antwort zufrieden waren, dann speichert der Betreiber diese 92.000 Muster zum Vergleich, und der Google Assistent, Alexa bzw. Siri haben wieder was gelernt. Gehen wir nicht ins Detail, aber so funktioniert es im Prinzip – zuzüglich ein bisschen Fummeln mit neuronalen Netzen. Early Adopters eines Amazon Echo in deutscher Sprache konnten das Anfang dieses Jahres selbst feststellen: Mit jeder Woche verstand Alexa mehr und konnte eine wachsende Anzahl Wörter, Begriffe und Sätze in den richtigen Kontext stellen.

Wie gesagt: An Apples Siri und Google Assistant haben sich Hundertausende User in aller Welt längst gewöhnt. Bei uns spielt Siri auf dem iPad eine wichtige Rolle als sozusagen „Second Voice“ zum Second Screen. Beim Spielfilmgucken kommt einem ein Gesicht bekannt vor. Da fragen wir doch einfach mal die schlaue Apple-Frau: „Wer spielt in ‚My Blueberry Nights‚ die Leslie?“ und kriegen zu hören: „Natalie Portman.“ – „Und wo hat die sonst so mitgespielt?“ – Es folgt eine lange, lange Liste. Das Beispiel gilt, aber nicht mehr so oft. Denn dieselbe Frage richten wir nun auch mal an Alexa, die genauso gut versteht und genauso richtig antwortet. Ach ja, auch die sprechende Blumenvase von Google beherrscht diese Thematik. Wie besonders die beiden Sprachassistentinnen, die in mehr oder weniger formschönen Werkstücken stecken, sich mit Medien bestens auskennen. Denn insgeheim hoffen sie ja darauf, dass wir einen der als Antwort genannten Filmen gleich im Streaming-Angebot ihres Chefs bestellen. Unschön, aber wahr: Weil’s so viel einfacher ist, hat Google Music bei uns das gute, alte Spotify abgelöst. Jetzt reicht es, „Alexa, spiel die toten Hosen“ in den Raum zu rufen, um die Luft mit den feinen Songs der Jungs aus unserer Heimatstadt zu befüllen.

Ach so, dieser Artikel war ja ursprünglich als Vergleichstest zwischen Google Home und Amazon Echo angelegt – mit einem Ausblick auf das, was Apple demnächst als sprechendes Sofakissen anzubieten hat. Nein, die Geräte tun sich nichts. Beide funktionieren gut, verstehen fast alles und geben meistens die gewünschten Antworten. Und wenn nicht … was soll’s, dann wird der Befehl eben manuell am entsprechenden Device eingegeben. Wem’s weniger um die Lautsprecherqualität geht (die bei beiden nicht besonders ist, aber da will ja Apple hoch hinaus), der wird mit dem winzigen Amazon Echo Dot für schlappe 60 Euro bestens bedient sein. Denn die größere Säule aus diesem Haus kostet mehr als das Doppelte, und bei Google Home ist man erst bei rund 150 Euro dabei. Wenn es weitergeht wie gewohnt, dürfte der Preis des kommenden Apple-Konkurrenten noch einmal höher liegen.

Thema "Smarthome" - unerwartet sexy — Thema „Smarthome“ – unerwartet sexy

Ja, fragt sich der kritische Digisaurier, lohnt sich das überhaupt? Nutzt man diese heimlichen Zuhörer überhaupt? Die Antwort lautet: Man muss es wollen. Wer sich mit den Möglichkeiten dieser (halbwegs) intelligenten Sprachassistenten nicht auseinandersetzt, wird enttäuscht sein. Denn, mal ehrlich, kommt irgendwer wirklich morgens freudestrahlend in den Raum und fragt „Alexa, wie ist das Wetter?“ oder „OK, Google, gibt es Stau auf meiner Strecke zur Arbeit?“ … wohl eher nicht. Musik ist dagegen die Stärke der Systeme und Erfüllung eines Wunschtraums von Liebhabern der populären Musik. Mir geht es oft so, dass mit irgendein längst vergessener Song in den Kopf kommt und ich den AUF DER STELLE hören möchte. Tja, und diesen Wunsch erfüllt mir Alexa gern. Das gilt natürlich für alle Wünsche in Sachen Streaming, wenn, ja, wenn die runden Dinger irgendwie ins Smarthome-System eingebunden sind. Wie jetzt? Was haben Amazon Echo und Google Home mit dem Thema „Hausautomatisierung“ zu tun? Wir haben es hier ja schon beschrieben: Mit ein bisschen Tüftelei kann man Alexa jetzt schon dazu bringen, Geräte ein- und wieder auszustellen, Lampen an- und auszuknipsen und auch am Fernseher die Lautstärke und den Kanal zu ändern. Bei Googles Sprachassi wird das bald sogar ganz ohne Umwege gehen, denn dafür hat der Suchgigant ja die Firma Nest aufgekauft, eines der Leuchtturmunternehmen im Bereich Smarthome.

Alexa, schalt das Licht am Aquarium aus!

Apple, so wurde angekündigt, setzt ja bei seinem kommenden Sprechassistentengerät eher auf Musik, wird das Ding also eher als intelligentes Such- und Abspielgeräte anpreisen. Und das könnte ein Fehler sein. Denn das ist insgesamt unsere schönste Erfahrung mit der freundlichen Alexa: Das sie nicht nur sinnlose Fragen (Frage: „Wie ist das Wetter?“ Antwort „Guck aus dem Fenster!“) beantworten, extrem flache Witze reißen und Lieblingsmusik abspielen kann, sondern auf Zuruf das Licht am Aquarium ausmacht, damit die Fische schlafen können.

Und wenn es den beiden zuhause zu langweilig ist, starten sie eben eine Konversation: