KI-Tools sollen die Arbeit erleichtern und die Produktivität steigern. Diverse Untersuchungen zeigen allerdings, dass die zugrundeliegenden Modelle oft noch nicht so sicher sind, wie sie sein sollten. Die gemeinnützige Forschungsorganisation Model Evaluation and Threat Research (METR), die KI-Modelle unabhängig auf ihre Fähigkeiten und Risiken untersucht, hat kürzlich eine Studie veröffentlicht, die darauf hindeutet, dass schädliche Verhaltensweisen zur Norm werden könnten. „Angesichts der sich rasch weiterentwickelnden Fähigkeiten erwarten wir, dass die Wahrscheinlichkeit, dass KI-Systeme außer Kontrolle geraten, in den kommenden Monaten erheblich zunehmen wird”, so die Forscher:innen in ihren Ergebnissen.Anzeige
KI-Modelle umgehen Anweisungen
Die METR-Studie wurde zwischen Februar und März 2026 durchgeführt und untersuchte, wie wahrscheinlich es ist, dass leistungsstarke KI-Modelle die festgelegten Vorgaben umgehen und unkontrolliert agieren. Analysiert wurden Sprachmodelle von OpenAI, Google, Anthropic und Meta. Das Ergebnis: Mit zunehmender Komplexität zeigen KI-Systeme beunruhigende Verhaltensweisen: Sie greifen auf verbotene „Abkürzungen“ zurück, unterlaufen die Anweisungen ihrer Nutzer:innen und versuchen in einigen Fällen sogar, ihre Spuren anschließend wieder zu verwischen.








