OpenAI hat seinen fortschrittlichen KI-Agenten, den Operator, nun auch für ChatGPT-Pro-Nutzer in der Europäischen Union sowie in der Schweiz, Norwegen, Liechtenstein und Island freigegeben. Diese Erweiterung ermöglicht es Nutzern, von den autonomen Fähigkeiten des Operators zu profitieren, der in der Lage ist, komplexe Aufgaben im Internet eigenständig zu erledigen.
Wesentliche Merkmale des OpenAI Operators:
- Autonome Web-Navigation: Der Operator kann selbstständig einen Webbrowser bedienen, um Aufgaben wie Online-Shopping oder Informationsrecherche durchzuführen.
- Integration mit Online-Diensten: Durch Kooperationen mit Plattformen wie InstaCart, Booking, Expedia, Uber und Stubhub kann der Operator nahtlos Dienstleistungen für den Nutzer arrangieren.
- Technologische Basis: Der Operator basiert auf dem Computer-Using Agent (CUA), der die Vision-Funktion von GPT-4o nutzt und durch Reinforcement Learning erweitert wurde, um mit grafischen Benutzeroberflächen zu interagieren.
Autonome Web-Navigation und Aufgabenverwaltung
Der Operator ist darauf ausgelegt, komplexe und mehrstufige Aufgaben eigenständig zu bewältigen, indem er diese in einzelne Schritte unterteilt. Ein praktisches Beispiel ist das Online-Shopping: Wenn ein Nutzer dem Operator mitteilt, welches Gericht er zubereiten möchte, sucht der Agent eigenständig nach passenden Rezepten und bestellt die benötigten Zutaten bei einem Lebensmittelhändler.
Operator Update
It’s now available to all Pro users in the EU, Switzerland, Norway, Liechtenstein & Iceland. https://t.co/aw0GIjHzCH
— OpenAI (@OpenAI) March 13, 2025
Diese Fähigkeit zur autonomen Web-Navigation ermöglicht es dem Operator, vielfältige Aufgaben im Internet zu übernehmen, ohne dass der Nutzer jeden Schritt manuell ausführen muss.
Technologische Grundlage und Funktionsweise
Der Operator nutzt den Computer-Using Agent (CUA), ein Modell, das auf der Vision-Funktion von GPT-4o basiert und durch zusätzliche Reasoning-Fähigkeiten ergänzt wurde, die mittels Reinforcement Learning entwickelt wurden. Dieses Training befähigt den Operator, mit grafischen Benutzeroberflächen zu interagieren, wodurch er herkömmliche Bedienelemente wie Schaltflächen, Menüs und Texteingabefelder nutzen kann. Im Gegensatz zu Systemen, die auf spezifische APIs angewiesen sind, agiert der Operator unabhängig und flexibel, wobei der Webbrowser direkt integriert ist.
Aktueller Entwicklungsstand und Ausblick
Derzeit befindet sich der Operator in einer Vorschauversion (Research Preview) und wird als eigenständiges Tool angeboten. OpenAI plant jedoch, den Operator künftig direkt in ChatGPT zu integrieren und den Zugang auch für Nutzer der kostenpflichtigen Plus-, Team- und Enterprise-Abos zu ermöglichen. Obwohl der Operator bereits beeindruckende Fähigkeiten zeigt, berichten Nutzer auf Plattformen wie Reddit, dass das System noch Fehler aufweist und als technische Demonstration betrachtet wird, die weiterer Verbesserungen bedarf.
Mit der Erweiterung des Zugangs zum Operator für europäische ChatGPT-Pro-Nutzer unternimmt OpenAI einen bedeutenden Schritt, um die Fähigkeiten von KI-Agenten im Alltag zu testen und weiterzuentwickeln. Es bleibt abzuwarten, wie sich der Operator in der Praxis bewährt und welche weiteren Funktionen in zukünftigen Versionen implementiert werden.