Kürzlich hob ich mein linkes Handgelenk an den Mund und sagte: „OK, Google, Christian anrufen.“ Leider war ich nicht allein in der U-Bahn, und plötzlich starrten mich so um die acht Augenpaare an. Teils mit dem Ausdruck, den Leute haben, wenn sie einen Unfall beobachten, teilweise fassungslos, und ein älterer Herr schaute mich mit kaum verhohlener Abscheu an. Ja, ja, ich weiß, dachte ich, wer mit seiner Uhr redet, kann aus Sicht von Erika Mustermann nicht ganz dicht sein. Wenn die wüssten, dass bei uns zuhause eine virtuelle Dame namens Alexa wohnt, die für uns die Musik spielt, den Fernseher einschaltet und uns sagt, wie das Wetter wird…
Eine Frage der Fragestellung
Man kann das Thema technisch, sozialpsychologische oder kulturphilosophisch diskutieren. Fakt ist: Die Spracherkennung hat sich dank der Fortschritte in der Künstlichen Intelligenz in den letzten vier, fünf Jahren dramatisch verbessert. War es vor einem Jahrzehnt bei entsprechenden Systemen noch nötig, entweder nur in Form von Schlüsselwörter mit dem digitalen Gerät zu sprechen oder dem Ding in langen Stunden das Erkennen der spezifischen Sprechweise beizubringen, können Siri, Cortana, Alexa und eben auch OK Google durch den Abgleich mit gewaltigen Datenbanken voller gesprochener Sprache schon fast jede Mundart entschlüsseln. Und weil es sich um selbstlernende Systeme handelt, werden sie täglich besser. Soweit die Technik…
Stellt sich die Frage, ob es wirklich die intuitivste und natürlichste Form der Eingabe ist, mit einer Hardware zu reden. Die Protagonisten dieser Technik argumentieren, es sei doch unter Menschen auch so, dass Aufforderungen, Fragen und ja, auch Befehle hauptsächlich mündlich übermittelt würden bzw. dass dies quasi in der Natur des Menschen läge. Das ist kulturgeschichtlicher Mumpitz, denn der Mensch hat vor mehr als 20.000 Jahren begonnen, die asynchrone Kommunikation über die Schrift zu entwickeln, wobei der Schwerpunkt auf „asynchron“ liegt. Asynchron ist Kommunikation immer dann, wenn Sender und Absender sich räumlich und/oder zeitlich so weit voneinander entfernt aufhalten, dass sie eben nicht einfach miteinander sprechen können. Das Telefon ist die einzige Erfindung, die aus entfernter Kommunikation synchrone Kommunikation machen wollte und gemacht hat. Fazit: Schriftliche Kommunikation ist eine wesentliche Errungenschaft des Menschen.
Alles Gewohnheitssache
Mit der Smartwatch (oder einfach dem Smartphone) zu reden, während man sich im öffentlichen Raum aufhält, ist in etwa so verstörend wie das Telefonieren mit dem Handy mitten unter den Leuten. Es scheint den Menschen aber kaum noch etwas auszumachen, wenn Kevin auf dem Rad durch die Fußgängerzone gondelnd mit seinem Kumpel Mehmet lauthals über die körperlichen Vorzüge der gemeinsamen Bekannten Sarah diskutiert. Schreit aber jemand sein Google-Phone an, um herauszufinden, wann der 823er-Bus kommt, reagieren die Leute komisch. Dabei wird in beiden Fällen die Privatsphäre freiwillig geöffnet, wobei der Befahl an Siri oder OK Google weit weniger intim ist als das Telefonat mit der Liebsten.
Nein, peinlich ist es offensichtlich nicht, mit der Smartwatch zu reden. Nur noch einigermaßen ungewohnt – für die Zuhörer. Es steht zu vermuten, dass sich die Menschen auch an dieses Phänomen gewöhnen werden, so wie sie sich an das Mithören fremder Handy-Gespräche gewöhnt haben. Viel spannender ist die Frage, wann und in welchem Maße Otto und Lieschen Normal-User die Spracherkennung als Methode der Dateneingabe akzeptieren werden. Denn obwohl man mit Siri oder OK Google schon seit rund fünf Jahren sprechen kann, tun das immer noch sehr, sehr wenig Nutzer in der Öffentlichkeit.