Je länger eine Aufgabe dauert, desto wahrscheinlicher versagt dein Agent. Laut METR Time Horizon 1.1 (Januar 2026) liegt der 50-Prozent-Schwellenwert für Claude Opus 4.5 bei rund fünf Stunden — das Modell löst die Hälfte aller Tasks, die einen Menschen bis zu fünf Stunden beschäftigen. Klingt beeindruckend. Bei allem, was darüber hinausgeht, bricht die Kurve ein. Seit dem 16. April gibt es Claude Opus 4.7. METR-Zahlen dazu fehlen noch. Die Kurve wird sich verschieben. Sie wird nicht verschwinden.

Das ist kein Feintuning-Problem. Das ist die Form, die autonome Arbeit heute hat.

Und es erklärt, warum jedes Unternehmen, das dir einen "autonomen" KI-Agenten verkauft, ihn mit einem Human-in-the-Loop ausliefert. Der Mensch im Prozess ist kein Sicherheitsfeature. Er ist die Versicherungspolice, die es sonst nirgendwo gibt.

(Die Konfidenzintervalle in TH1.1 sind weit — METR betont das selbst. Aber die Richtung passt zu dem, was jeder sieht, der Agenten in Produktion betreibt.)

Was passiert, wenn niemand in der Schleife sitzt