Zurück zum Blog

So führen Sie Claude Code stundenlang autonom aus, ohne ihn beaufsichtigen zu müssen

2026-03-057 min read

Ich ließ Claude Code über Nacht für eine reale Aufgabe laufen. Ich testete AIdaemon, meinen persönlichen KI-Agenten, über die Weboberfläche von Telegram. Ich habe tagsüber nachgesehen, es über Nacht weiterlaufen lassen, und am nächsten Morgen lief es seit über 27 Stunden. 84 Aufgaben abgeschlossen. Es fand Fehler, korrigierte den Code, testete erneut und ging zu schwierigeren Tests über. Alles, ohne dass ich etwas anfassen musste. Ich nutze den Claude Code 20x Plan, der genügend Kapazität bietet, um solche Sitzungen tatsächlich durchzuführen.

Das Setup, das dies ermöglichte, besteht aus drei Flags und einer guten Prompt-Datei.

Claude Code-Sitzung mit einer Laufzeit von 1 Tag 3 Stunden 6 Minuten und über 84 abgeschlossenen Aufgaben
Nach 1d 3h 6m. Test 88, über 84 Aufgaben abgeschlossen, läuft noch.

Bestätigungsaufforderungen überspringen

Claude Code fragt normalerweise nach einer Bestätigung, bevor es Befehle ausführt oder Dateien bearbeitet. Das ist in Ordnung, wenn man daneben sitzt. Aber bei nächtlichen Durchläufen ist jede Bestätigungsaufforderung ein Stillstand. Die Sitzung wartet einfach darauf, dass Sie auf „zulassen“ klicken.

claude --dangerously-skip-permissions

Der Name des Flags ist bewusst beängstigend. Er bedeutet, dass Claude Code jeden Tool-Aufruf ohne Nachfrage ausführt. Ich würde dies nicht auf einem Rechner mit Produktionsgeheimnissen verwenden. Auf einem Entwicklungsrechner mit einer abgegrenzten Aufgabe ist es jedoch das, was unbeaufsichtigte Durchläufe ermöglicht.

Geben Sie ihm einen Browser

Ich benötigte, dass Claude Code mit einer Web-App interagiert. Ich testete den Telegram-Bot von AIdaemon über Telegram Web, und Claude Code allein kann das nicht tun, da es im Terminal läuft.

Das Flag --chrome verbindet es über die Claude in Chrome MCP-Erweiterung mit Chrome. Es kann Seiten navigieren, auf Schaltflächen klicken, Formulare ausfüllen, Inhalte lesen und Screenshots machen. Kombinieren Sie beide Flags, und Sie erhalten etwas, das Code im Terminal schreiben und ihn im Browser testen kann.

claude --chrome --dangerously-skip-permissions

In meinem Fall sendete Claude Code eine Nachricht an AIdaemon über Telegram Web, las die Antwort, entschied, ob der Agent das Richtige getan hat, und korrigierte den Code, falls nicht. Dann versuchte es dasselbe noch einmal, um dies zu bestätigen.

Mit Ralph Loop am Laufen halten

Wenn Sie Claude Code nur mit einem großen Prompt starten, wird es fertig und beendet sich. Oder es glaubt, fertig zu sein, und beendet sich. Das ist für eine schnelle Aufgabe in Ordnung, aber nutzlos für etwas, das Stunden dauern sollte.

Ralph Loop ist ein Claude Code Plugin, das dieses Problem löst. Es installiert einen Stopp-Hook. Wenn Claude versucht, sich zu beenden, fängt der Hook dies ab und speist denselben Prompt erneut ein. Jede Iteration beginnt eine neue Konversation mit demselben Prompt, aber Claude kann den aktuellen Zustand der Dateien und den Git-Verlauf sehen. Es findet heraus, was getan wurde, und entscheidet, was als Nächstes zu tun ist. Der Name stammt von der Ralph Wiggum-Technik von Geoffrey Huntley. Die ursprüngliche Idee war denkbar einfach: eine Bash while true-Schleife, die einen Prompt-File immer wieder in einen KI-Agenten einspeist, bis dieser es richtig macht. Brute Force trifft auf Hartnäckigkeit, wie die Figur aus den Simpsons, die einfach weitermacht, egal was passiert. Anthropic fand es gut genug, um ein Ralph Wiggum Plugin als Teil von Claude Code zu veröffentlichen.

/ralph-loop "Ihre Aufgabenbeschreibung hier" --completion-promise "FERTIG"

Das --completion-promise ist der einzige Ausweg. Claude kann die Schleife nur verlassen, indem es genau diese Zeichenfolge ausgibt. Sie können auch --max-iterations als Sicherheitsnetz festlegen.

Einen echten Prompt schreiben

Die oben genannten Tools sind die Maschinerie. Aber der Prompt bestimmt, ob Sie eine Stunde nützliche Arbeit oder siebenundzwanzig Stunden erhalten. „Teste meine App und behebe Fehler“ führt dazu, dass Claude nach einer Korrektur vielleicht nach einer Stunde den Sieg erklärt.

Für alles Ernsthafte schreibe ich eine Markdown-Datei. Architektur, Ziele, Einschränkungen, was „fertig“ eigentlich bedeutet. Dann übergebe ich diese an ralph-loop.

/ralph-loop "$(cat task-prompt.md)" --completion-promise "FERTIG"

Mein Prompt für die 27-stündige Sitzung sah ungefähr so aus.

# Aufgabe. Testen und härten des AIdaemon Telegram Agenten

## Kontext
AIdaemon ist ein vielseitiger KI-Agent, der über Telegram zugänglich ist.
Die Weboberfläche befindet sich unter https://web.telegram.org/k/#@aidaemon_coding_bot

## Ziele
- Den Agenten mit progressiv schwierigeren Aufgaben herausfordern
- Nicht nur Happy Paths testen. Randfälle, fehlerhafte Eingaben,
komplexe mehrstufige Operationen versuchen
- Wenn etwas fehlschlägt, den zugrunde liegenden Code korrigieren
(kein Pflaster für diesen speziellen Fall)
- Nach jeder Korrektur erneut testen, um zu bestätigen, dass es funktioniert UND nichts anderes kaputt gegangen ist

## Architekturhinweise
(relevante Dateipfade, wie der Agent Nachrichten verarbeitet,
Schlüsselmodule, Datenbankschema, was auch immer Claude benötigt)

## Erfolgskriterien
- Alle grundlegenden Operationen funktionieren zuverlässig
- Randfälle werden elegant behandelt
- Fehlermeldungen sind hilfreich, nicht kryptisch
- Keine Regressionen von früheren Korrekturen
- "FERTIG" ausgeben, wenn alle oben genannten Punkte zutreffen

Ohne Architekturhinweise verschwendet Claude Iterationen damit, den Code zu verstehen. Ohne klare Erfolgskriterien weiß es nicht, wann es aufhören soll. Ohne die Anweisung, allgemeine Korrekturen vorzunehmen, schreibt es eine If-Anweisung für eine bestimmte Eingabe und macht dann weiter.

Was in 27 Stunden geschah

Ich führte den Befehl aus und ging ins Bett.

Die erste Stunde war den Grundlagen gewidmet. Einfache Nachrichten an den Bot, Überprüfung der Antworten. Dann begann es, sich selbst zu eskalieren. Refactoring-Aufgaben über mehrere Dateien hinweg. Fehlerbehebung bei fehlerhaften Eingaben. Es fand eine Prompt-Injection-Schwachstelle, schrieb eine Verteidigung und testete dann eine härtere Injektionsvariante, um zu prüfen, ob die Verteidigung hält.

Bei Test 88 hatte der Agent einen JSON-Parser von Grund auf mit 79 Testfällen erstellt. Zuvor korrigierte er die Obergrenzen für Hintergrundbenachrichtigungs-Pings, behob Fehler bei der Auflösung von Tool-Namen und entdeckte ein UX-Problem, bei dem interne Mechanismen in benutzerorientierten Nachrichten angezeigt wurden.

Die Korrekturen waren echt, nicht oberflächlich. Das „günstige Profil“ verwendete first_fallback anstelle des Standardmodells, also korrigierte es die Konfigurationslogik. Die Auflösung von Tool-Namen bei Lesesättigung schlug fehl, also fügte es einen Kaskaden-Fallback für alle Tiefen hinzu, nicht nur für die, die fehlschlug.

Insgesamt 84 Aufgaben. Tests, Korrekturen, erneute Tests. Alles autonom.

Was ich jemandem mitteilen würde, der dies versucht

Ich habe vor dieser Sitzung einige Sitzungen mit Einzeiler-Prompts durchgeführt. Diese verloren nach ein oder zwei Stunden an Schwung. Die 27-stündige Sitzung lief weiter, weil die Prompt-Datei genügend Kontext enthielt, damit Claude über Dutzende von Iterationen hinweg auf Kurs blieb.

Claude mitzuteilen, allgemeine Korrekturen anstelle spezifischer Patches vorzunehmen, machte einen echten Unterschied. Ohne dies schreibt es den minimalen Code, um den aktuellen Test zu bestehen. Damit verhindern die Korrekturen auch verwandte Fehler.

Der Browserzugriff deckte Dinge auf, die Unit-Tests nicht erfasst hätten. UI-Eigenheiten, Timing-Probleme, Formatierungsprobleme. Mit --chrome konnte Claude echtes End-to-End-Testing durchführen, anstatt nur Code isoliert auszuführen.

Ich habe alle Änderungen danach überprüft. Die meisten waren gut. Ein paar waren übermäßig komplex, und ein Refactoring betraf mehr Dateien als nötig. Aber insgesamt wurden Dutzende echter Fehler gefunden und behoben, jeder bestätigt durch einen erneuten Test.

Wenn Sie es versuchen möchten, installieren Sie das Ralph Loop Plugin, schreiben Sie eine ordentliche Prompt-Datei und fangen Sie klein an. --max-iterations 10 bei einer abgegrenzten Aufgabe. Sehen Sie, wie es läuft, bevor Sie skalieren.

Auf dem Laufenden bleiben

Erhalten Sie die neuesten Beiträge und Einblicke direkt in Ihren Posteingang.

Unsubscribe anytime. No spam, ever.