Last Updated on 13.05.2025 by Redaktion Digisaurier
Es gibt ja aktuell kaum eine Innovation im Computer-Bereich, die nicht irgendwie mit dem Thema KI zu tun hätte. Dabei taucht die künstliche Intelligenz bisweilen auch an Stellen auf, wo man sie eigentlich nicht erwartet hätte. Zum Beispiel in naher Zukunft im Web-Browser. Doch was zur Hölle macht ein KI-Agent dort? Und wer braucht sowas?
Auch uns geht es so: Wenn von Agenten die Rede ist, denken wir eher an James Bond oder Johnny English. Aber beim Trendthema „Agentic Browsing“ geht es nicht um Geheimagenten, sondern um KI-Funktionen, die zum Beispiel die Rolle eines Maklers übernehmen. Also ist der Begriff Agent in diesem Zusammenhang eher in einem Sinne wie „Reiseagent“ oder „Immobilienagent(ur)“ gemeint.
Trend-Setter Opera
Bevor wir näher darauf eingehen, worum es bei diesem Thema eigentlich geht, vorab ein kleiner Blick hinter die Kulissen: Denn auf die Frage „Wer hat’s erfunden?“ lautet die Antwort: Opera. Übrigens zum wiederholen Male.
Von dem gleichnamigen Web-Browser haben die meisten wohl schon mal gehört. Was aber keineswegs bedeutet, dass sie diesen Browser auch nutzen, geschweige denn regelmäßig. Denn bei den üblichen Statistiken (hier mal exemplarisch eine davon), mit welchem Web-Browser die User im Internet unterwegs sind, rangiert Opera nur unter „Ferner liefen“. Um Platz 1 in der Nutzungsstatistik kämpfen typischerweise Googles Chrome und Apples Safari – nicht zuletzt, weil immer mehr Anwender auf Mobilgeräten wie Smartphone und Tablet im Web unterwegs sind, und die meisten Browser-Statistiken mittlerweile gar nicht mehr nach Plattformen beziehungsweise Betriebssystemen unterscheiden.
Über PC, Smartphone und Co. aufsummiert, liegen die Nutzungsanteile von Chrome und Safari jeweils über 40 Prozent. Mit weitem Abstand folgen Firefox (um 6 Prozent) und Microsoft Edge (um 4 Prozent). Und wer denkt, das seien schon recht geringe Anteile: In derselben Statistik wird Opera mit 0,4 Prozent ausgewiesen.
Allerdings sollte man sich von diesen Zahlen nicht täuschen lassen. Obwohl Opera keinen riesigen Marktanteil hat, ist dieser Browser auf seine eigene Art dennoch bedeutend. Denn die Norweger gelten als Trendsetter im Browsermarkt. Sie haben eine Menge praktischer Innovationen erfunden, die dann von ihren großen Konkurrenten mehr oder weniger unverhohlen kopiert wurden.
Der kleine Food-Truck-Betreiber, der die großen Sterneköche inspiriert
Beispiele gefällig? Da wären etwa zu nennen: Browser-Tabs, direkte Suchworteingabe in der Adressleiste, im Browser integriertes VPN oder der direkte Zugriff auf Messenger-Dienste wie WhatsApp oder Facebook Messenger aus dem Browser. All dies gab es zuerst in Opera, und dann erst später bei den weiter verbreiteten Mitwerbern. Der norwegische Browser ist also ein wenig wie ein Koch in einem kleinen Food Truck, der trendige Rezepte kreiert – die dann kurz darauf landesweit in den großen Sterne-Restaurants angeboten werden.
Immerhin: Trotz seines vergleichsweise kleinen Marktanteils und trotz der Tatsache, dass die angebotenen Web-Browser selbstverständlich kostenlos sind, gelingt es Opera, sich stabil zu finanzieren. Das Unternehmen verdient Geld durch Kooperationen, Lizenzgeschäfte sowie das sogenannte Affiliate-Marketing: Bestellt ein Opera-Nutzer aufgrund einer vom Browser erzeugten Empfehlung in einem Online-Shop oder bucht er auf derselben Basis eine Dienstleistung, geht eine Vermittlungsgebühr an den Browser-Anbieter. Auf diese Weise kommen genügend Millionen Euro zusammen, dass die rund 1600 Mitarbeiter zählende, schlagkräftige Entwickler-Truppe ihre Arbeit davon finanzieren kann.
Ein Blick in die Browser-Zukunft: die Opera Browser Days
Der beschriebene Hintergrund war es, warum Hannes Mitte April 2025 gerne zugesagt hat, als der norwegische Anbieter ihn zu seinen traditionellen „Browser Days“ eingeladen hat. Dabei handelt es sich um ein Presse-Event, bei dem Opera einen Ausblick auf künftige Innovationen gibt – und somit eben auf die nächsten großen Trends im Browser-Markt. Dieses Jahr fand der übrigens in der Nähe von Lissabon statt.

Das Programm dort war umfangreich und umfasste unter anderem neue Versionen des sehr reduzierten Browsers „Opera Air“, der seinen Nutzern dabei hilft, sich auf das Wesentliche zu konzentrieren, sowie von „Opera GX“, der sich in Optik und Funktionalitäten speziell an Gamer richtet. Letzteres bedeutet übrigens, dass sich das Design der Benutzeroberfläche fast beliebig modifizieren lässt und auch Gags wie Soundeffekte bei jeder Tasteneingabe konfiguriert werden können. Opera GX ist ein „Spaß-Browser“ – sozusagen das Browser-Pendant zu einer Diskokugel. Falls außer uns noch jemand weiß, was das ist…
Der Star der diesjährigen Veranstaltung war aber „Aria“. Das ist der Name der ins Opera-Hauptprodukt „Opera One“ integrieren lokalen KI – oder exakter: des im Browser beheimateten „Large Language Models“ (LLM). Denn genau dieses LLM steckt hinter der bereits eingangs erwähnten Agenten-Funktion.

Was genau macht denn nun der Agent im Browser: Vom Einkaufswagen zum Shopping-Helfer
Was steckt nun genau hinter dem eingangs erwähnten Agenten-Konzept? Wenn es um jede Art von Geldausgeben geht, ist der Vergleich zwischen dem Internet und einem riesigen Supermarkt nicht ganz unberechtigt. Bisher war der Browser in etwa unser Einkaufswagen: Wir schieben ihn selbst, suchen die Regale ab, vergleichen Produkte, legen sie in den Wagen und stellen uns zum Bezahlen an der Kasse an. Diese Vorgehensweise ist über Jahre eingeübt, aber eigentlich ziemlich mühsam. Zumindest, wenn wir diese althergebrachte Methode mit der Idee eines persönlichen Einkaufsassistenten vergleichen. Einem Assistenten, der unsere Vorlieben kennt, unsere aktuellen Wünsche versteht, in unserem Auftrag die besten Produkte findet, Preise vergleicht, alles in den Wagen legt und sogar die Bezahlung abwickelt – während wir entspannt einen Kaffee trinken. Das in etwa ist das Konzept hinter „Agentic Browsing“.

Um dies erfüllen zu können, steuert der Agent im Browser Funktionen, die bisher mühsam von Hand erledigt werden mussten. Das reicht vom simplen Ausfüllen von Formularen über das Vergleichen von Angeboten bis hin zur Buchung oder Bestellung.
Wie dies ganz praktisch aussehen kann, zeigten die Opera-Entwickler auf ihren Browser-Days anhand einer Live-Demo: Gesucht war zunächst ein Freiwilliger aus dem Publikum. Aria erhielt dann folgenden Auftrag: Bestelle einen Blumenstrauß für Herrn Soundso, der im Hotel Soundso auf Zimmer Soundso wohnt. Der Strauß soll mit Lieferung rund 30 Euro kosten und morgen zugestellt werden.
Anschließend konnte das Fachpublikum zuschauen, wie der Agent diese Aufgabe Schritt für Schritt erledigte: Er suchte im Web einen Blumenladen mit Lieferdienst in der Umgebung, füllte dort das Bestellformular aus und wickelte per Bezahldienst die Bestellung ab. Dass das Ganze wirklich funktionierte, konnten die Besucher am Abend des Folgetags sehen. Denn der Beschenkte brachte den zwischenzeitlich gelieferten Blumenstrauß zum gemeinsamen Abendessen der Pressevertreter mit und übergab ihn als Dankeschön dem Team des Veranstalters.

Bei dem Live-Beispiel handelte es sich um eine Technologie-Demo. Es wird wohl noch ein wenig dauern, bevor lokale KI im Browser wirklich auf breiter Front live geht. Denn bis dahin sind noch verschiedene Details zu klären und programmtechnisch festzuzurren: Wie lassen sich beispielsweise Bezahlvorgänge kontrollieren – zum Beispiel durch ein Limit, welchen Betrag die Browser-KI selbstständig ausgeben darf? Außerdem soll der Agent noch lernen, bei komplexeren Aufgaben beziehungsweise Anfragen, bei denen der Nutzer mitbestimmen möchte, mehrere Alternativen anzubieten (etwa fünf infrage kommende Hotels am Urlaubsort mit ihren jeweiligen Pros und Contras), und seinem Anwender die letzte Entscheidung zu überlassen.
Wie funktioniert das Ganze?
Wie funktioniert das alles technisch? Die Magie steckt in der KI, die als „Agent“ direkt im Browser arbeitet. Sie versteht den in natürlicher Sprache formulierten Prompt, zerlegt die darin angefragten Aufgaben in einzelne Schritte und führt diese automatisch aus. Dabei analysiert sie Webseiten nicht nur oberflächlich, sondern liest deren Struktur aus. Zur Interaktion klickt, tippt und navigiert sie wie ein Mensch – nur schneller und (in der Regel) fehlerfreier.
Das LLM arbeitet übrigens ganz bewusst lokal auf dem Rechner des Anwenders – zum einen, um nicht von zentralen Ressourcen wie einer Cloud abhängig zu sein, zum anderen aus Datenschutzgründen. Denn um perfekt zu funktionieren, braucht der Browser-Agent Zugriff auf die Browserhistorie, gespeicherte Cookies und vertrauliche Nutzerdaten – allesamt Informationen, die man nicht immer einer zentralen Cloud anvertrauen möchte.
Und was bringt das im Alltag?
Wir Digisaurier sind uns ziemlich sicher, dass KI-Agenten im Browser schon bald selbstverständliche Begleiter werden dürften. Denn das Konzept entlastet von nervigen, zeitraubenden Standard-Aufgaben. Und es lässt sich für eine ganze Reihe von typischen Anwendungen vorteilhaft einsetzen. Zum Beispiel zum Kauf von Produkten oder Tickets, zur Buchung von Reisen, zum Ausfüllen der Formulare von Ämtern, Versicherungen, Banken und Dienstleistern sowie Ähnlichem mehr. Das Versprechen ist – wie so oft in der Computerei: den Nutzer von Routineaufgaben entlasten und ihm Zeit für die wirklich wichtigen Aufgaben zu verschaffen.

Wo liegen Grenzen und Risiken?
Dennoch ist andererseits nicht alles Gold, was glänzt: Trotz allem steht die eingesetzte Technologie noch ganz am Anfang. Manchmal kann sich der Agent einfach „verlaufen“, er versteht Wünsche falsch oder scheitert an besonders komplexen Webseiten. Außerdem muss sichergestellt werden, dass alle Aktionen, die zu Kosten führen oder vertrauliche Daten bekannt geben, vom Anwender autorisiert sind. Aber gerade dies ist ja letztlich beim konventionellen Websurfen nicht anders. Jedenfalls ist sich Digisaurier Hannes ziemlich sicher, bei dem Termin in Lissabon ein Stück der Zukunft des Internet gesehen zu haben.
Aber weil er gleich danach in Urlaub gefahren ist, haben wir uns natürlich gefragt: Hat er das Hotel mit KI gesucht? Oder klassisch von Hand… Vielleicht verrät er es uns ja mal.
Ich halte diesen KI-Hype bislang für einen riesigen Quatsch, ganz ehrlich.
Erstens ist KI teuer. Wenn sie gratis daherkommt und einem sogar quasi aufgezwungen wird, dann muss man sich zu allererst fragen, wer die Kosten trägt und wer einen Nutzen davon hat. Wo immer KI heute auftaucht, in Browsern, Entwicklungsumgebungen, E-Mail-Clients, sogar in Kommandozeilen-Terminals, sind in der Regel die Interessen des Anbieters mindestens so gross wie die des „Nutzers“. Der Anbieter hat einen Agenten auf Deinem System, toll. Früher machte man sich über Viren und Malware ernsthafte Gedanken, heute ruft man besinnungslos nach KI.
Zwotens, die Lösungen, die KI bietet, sind immer mindestens fragwürdig – immer! KI kann einen beraten und dann erhält man vielleicht tatsächlich Ideen, auf die man so schnell nicht gekommen wäre. Wenn man aber KI-Lösungen 1:1 übernimmt, kommt praktisch immer Murks heraus, insbesondere in der Software-Entwicklung. Man hat’s oft nicht verstanden, kennt Seiteneffekte und Randbedingungen nicht, man kann es anschliessend nicht warten, aber man setzt es ein und ist stolz darauf! Ich hab Leute vor meinen Augen in dieser Tool-Gläubigkeit verblöden sehen.
Drittens, im Moment spricht jeder überall nur über Vorteile. Über Risiken und Nachteile erfährt man vergleichsweise wenig. Ich behaupte, das wird sich mittelfristig ändern, wenn durch KI verursachte Schadensfälle auftreten und bekannt werden, bei denen es u.U. um viel Geld gehen wird. Lass mal einen KI-unterstützten E-Mail-Client in einer Stadtverwaltung ein paar Tausend E-Mails, Adressen und Kalenderevents versaubeuteln …
Ich kann die Skepsis gut verstehen. Und teile sie auch in manchen Aspekten. Aber dem pauschalen Urteil dass das alles Quatsch ist, schließe ich mich nicht an. Wir selber nutzen beim Digisaurier KI Tools. Sonst könnten wir mit der kleinen Mannschaft dieses Projekt (noch dazu ehrenamtlich) einfach gar nicht stemmen. Aber – und das ist der entscheidende Punkte, der ja auch in dem Kommentar gesagt wird – nie ohne menschlichen Einfluss. Je nach Aufgabe ist der stärker oder weniger stark. Aber klar ist: KI ist eine Unterstützung, keine Lösung. 1:1 übernehmen empfehlen wir keinesfalls. Im Gegenteil: Wir sagen in all den Artikeln und Videos die wir zu dem Thema gemacht haben hier auch immer wieder eines: Man muss in der Lage sein, das Ergebnis einer KI selbst wirklich zu beurteilen. Wer nicht gut im schreiben ist, wird jeden KI Text gut empfinden. Einfach weil der besser ist, als was man selbst geschrieben hätte. Ob es ein guter Text ist, hat damit aber nicht zwangsweise was zu tun. Wie gesagt: Wer die Artikel hier dazu liest, wird dieses „Mantra“ auch immer wieder darin finden. Insofern: KI nutzen ist durchaus sinnvoll. Wenn man weiß wie man sinnvoll damit umgeht.