Beim Einsatz von generativer Künstlicher Intelligenz (KI) stellen sich viele deutsche Unternehmen zentrale Fragen: Halten sich die eingesetzten großen Sprachmodelle und Arbeitsplattformen an geltendes Recht, allen voran die Vorgaben der europäischen KI-Verordnung (AI Act) und der EU-Datenschutzgrundverordnung (DSGVO)? Und wie sicher sind unternehmensinterne Daten auf den Servern der Anbieter?Eine kürzlich veröffentlichte Studie der niederländischen Aithos Research Foundation nährt Zweifel. Mithilfe eines eigens entwickelten Prüfwerkzeugs namens „Lara“ untersuchte die Nichtregierungsorganisation zwölf große Sprachmodelle – darunter Chatbots der amerikanischen Anbieter Google, Anthropic und Open AI, des französischen Anbieters Mistral sowie chinesischer Unternehmen wie Deepseek – auf die Einhaltung europäischen Rechts.„Kein akzeptables Compliance-Niveau“Das Fazit fiel eindeutig aus: „Kein einziges der getesteten KI-Modelle erreicht ein akzeptables Compliance-Niveau.“ Dabei brauche es kein „böses“ KI-Modell, um gegen den AI Act oder die DSGVO zu verstoßen. Die KI-Agenten seien schlichtweg darauf trainiert, den Anweisungen des jeweiligen Nutzers zu folgen.Der Münchner Cloud- und Compliance-Dienstleister EQS kommt in einer aktuellen eigenen Untersuchung dagegen zu einem differenzierteren Befund. Das Risiko entstehe nicht durch die Technologie selbst, sondern dort, wo Unternehmen KI-Anwendungen einsetzten, ohne zuvor intern geeignete Strukturen zu schaffen. Compliance-Manager, die um die realen Grenzen der Technologie wissen, seien diejenigen, die „glaubwürdige, praktikable Leitplanken“ für den Einsatz von KI setzen könnten. „Wer wartet, bis die Governance-Gespräche beginnen, wird von einer schwächeren Position aus arbeiten“, heißt es in der Neuauflage der Vergleichsstudie „AI Performance in Compliance and Ethics“, die abermals in Zusammenarbeit mit dem Berufsverband der Compliance Manager (BCM) entstanden ist.Dafür hat EQS die vier leistungsstärksten KI-Modelle – Open AI GPT-5.4, Google Gemini Pro 3, Anthropic Claude Opus 4.6 und Mistral Large 3 – anhand von 120 Compliance-Aufgaben aus zehn Themenfeldern getestet, darunter Unternehmensrichtlinien, die Bearbeitung eingegangener Hinweisgebermeldungen, die Darstellung von Interessenkonflikten sowie Datenexporte. Die Angaben beruhen auf echten Kundendaten. Im Anschluss bewerteten Compliance-Manager, wie die unterschiedlichen Modelle die Aufgaben meisterten.Sprachmodelle werden leistungsstärker, auch für komplexe AufgabenIhr Urteil: Die großen Sprachmodelle der drei führenden amerikanischen Anbieter liefern nahezu gleiche Arbeitsergebnisse. Den ersten Platz nimmt ChatGPT 5.4 ein, dicht gefolgt von Gemini Pro 3 und Claude Opus 4.6. Mit deutlichem Abstand folgt der französische Anbieter Mistral. „Die Konvergenz an der Spitze ist das auffälligste Merkmal“, heißt es in der EQS-Studie. Überrascht zeigten sich die Compliance-Fachleute von der deutlichen Weiterentwicklung der Modelle. Die größten Fortschritte seien genau in dem Bereich erzielt worden, der für die tägliche Compliance-Arbeit am wichtigsten ist: der offenen „Generierung“. Dazu zählen Aufgaben wie das Verfassen von „Briefings“ für Abteilungsleiter und Vorstandsberichte, die Ausarbeitung interner Richtlinien sowie das Erstellen von Ablaufplänen für interne Untersuchungen.„Die Benchmark zeigt, wie schnell KI zu einem echten Innovationstreiber im Compliance-Bereich wird“, sagt Martin Benda, Präsident des BCM: „Die zentrale Aufgabe besteht nun darin, diese Möglichkeiten in konkrete Anwendungen zu überführen – und dabei Effektivität und verantwortungsvolle Kontrolle gleichermaßen zu stärken.“Im Vergleich zur ersten Untersuchung im Jahr 2025 erzielten alle KI-Anbieter bei offenen Aufgaben ausnahmslos höhere Bewertungen. Am deutlichsten verbesserten sich Anthropic und Mistral. Mistral Large 3, das europäische Modell, stellt nach Auffassung der Compliance-Fachleute für Organisationen mit EU-Datensouveränitätspflichten inzwischen eine ernst zu nehmende Alternative dar, wenn auch der Abstand zu den amerikanischen Anbietern mit knapp acht Prozentpunkten weiterhin groß ist.Kontext, Werkzeuge und menschliche KontrolleLaut Moritz Homann, dem Leiter des KI-Geschäftsbereichs bei EQS, ist eine sogenannte agentische Compliance – also der Einsatz autonomer KI-Agenten in Compliance-Prozessen – längst keine Frage der Machbarkeit mehr. „Die neuesten Modelle sind stark genug, um mehrstufige Prozesse zu bewältigen. Der entscheidende Unterschied liegt jedoch im Umfeld: im Kontext, den Werkzeugen und den menschlichen Kontrollpunkten, die KI in der Praxis zuverlässig machen.“Entscheidend ist nicht die Wahl zwischen Open AI, Anthropic oder Mistral, sondern wie konsequent ein Unternehmen ein Sprachmodell in seine bestehende Organisation integriert. Die Autoren der Studie empfehlen Compliance-Teams daher ausdrücklich, aus der Pilotphase herauszutreten und KI in den operativen Betrieb einzubetten. Wer einem Modell die richtigen Aufgaben zuweise, ihm Kontext gebe und eine passende Aufsicht etabliere, werde „überproportional bessere Ergebnisse“ erzielen als jene, die auf die nächste Modellversion warten.