Claude Sonnet: AI Takes Over Your Computer

Automatisierte Interaktion mit dem Computer – Was ist möglich?

Mit dem „Computer Use“-Feature kann Claude einfache Aufgaben wie das Navigieren durch Apps, das Bewegen des Cursors, das Anklicken von Schaltflächen und sogar das Tippen von Text erledigen. Nutzer können einfach einen Textbefehl eingeben und Claude erledigt den Rest – ideal für wiederholende oder komplexe Aufgaben, bei denen verschiedene Anwendungen oder Dokumente durchsucht und ausgefüllt werden müssen. Ein Beispiel wäre das Ausfüllen eines Formulars mit Daten, die über verschiedene Dokumente verstreut sind.

Durch diese Funktion soll Claude Sonnet nicht nur vordefinierte Aufgaben erledigen, sondern flexibel auf standardmäßige Softwareanwendungen zugreifen können. Die Idee: Mithilfe einer API können Entwickler nun Prozesse im Arbeitsalltag automatisieren und die KI an bestimmte Applikationen anpassen.

Die Technik hinter „Computer Use“

Claude „sieht“, was auf dem Bildschirm passiert, indem er Screenshots analysiert und anhand dieser Pixel-genau berechnet, wo er den Cursor platzieren oder klicken muss. Auch kann die KI auf eine Serie von Screenshots zugreifen, um so mehrere Schritte nacheinander auszuführen und gegebenenfalls sogar Fehler selbst zu korrigieren. Replit, eine Plattform für Softwareentwicklung, plant bereits, diese Technologie für das Testen und die Qualitätskontrolle von Anwendungen zu nutzen.

Grenzen der Funktion: Claude bleibt fehleranfällig und kostspielig

Die Technologie ist jedoch noch nicht perfekt: Claude tut sich schwer mit Scrollen, Drag-and-Drop-Bewegungen und dem Zooming. Tests zeigen, dass die KI nur in etwa 46 % der Fälle erfolgreich war, zum Beispiel beim Buchen von Flügen. Zudem ist die KI kostspielig – einfache Aufgaben können mehrere Dollar an Token-Verbrauch verursachen. Ein Benutzer berichtete, dass das Öffnen und Kategorisieren einer URL ihn etwa 1,30 USD gekostet hat.

Claude erreicht derzeit nur 14,9 % der menschlichen Leistung bei Screenshot-basierten Aufgaben auf der Testplattform OSWorld, während die menschliche Leistung etwa bei 70 % liegt. Doch Anthropic sieht diese Beta-Phase als eine Möglichkeit, das Feature durch das Feedback der Nutzerweiter zu verbessern.

Sicherheitsmaßnahmen zum Schutz vor Missbrauch

Anthropic hat Sicherheitsvorkehrungen eingeführt, um die Risiken der neuen Funktionalitäten zu minimieren. Claude 3.5 Sonnet verwendet weder Benutzerdaten noch Screenshots für sein Training. Zum Schutz vor missbräuchlichen Aktivitäten gibt es außerdem Systeme, die potenziell schädliche Eingaben erkennen sollen. Prompt-Injection-Angriffe – bei denen manipulative Befehle der KI schaden könnten – werden durch Klassifikatoren erkannt und verhindert.

Fazit: Ein großer Schritt, aber noch kein Quantensprung

Das „Computer Use“-Feature von Claude 3.5 Sonnet markiert einen wichtigen Meilenstein in der KI-Entwicklung. Die Möglichkeit, dass KIs direkt mit unseren Computern interagieren, öffnet Türen für zahlreiche Anwendungsfälle, die über klassische Sprachassistenten hinausgehen. Doch Claude zeigt in seiner aktuellen Beta-Version noch Schwächen in Geschwindigkeit und Präzision. Die Technologie bleibt spannend und vielversprechend, jedoch ist ein vollständig verlässlicher KI-Assistent, der unseren Arbeitsalltag übernehmen kann, noch Zukunftsmusik.

Moritz Grumbach

Hallo, ich bin Moritz. Ich habe zwei Startups mit Millionenumsätzen gegründet, war Digitalberater bei Ernst & Young und Lehrbeauftragter für Innovation & Entrepreneurship an einer deutschen Hochschule. Heute begleite ich unter der Marke DeinStartup.Coach bundesweit Gründer*innnen beim Aufbau ihres Unternehmens.