Chatbots und KI-Agenten sind vor allem deshalb so beliebt, weil sie relativ allgemein gehaltene Anweisungen selbstständig in konkrete Strategien umsetzen. Das klappt allerdings nicht immer gleichermaßen gut, denn das Erreichen von Zielen ist für die KI nur eine abstrakte, mathematische Funktion, deren Wert maximiert wird. Und um das zu erreichen, ignorieren LLMs auch schon mal konkrete Anweisungen und verwischen danach die Spuren – Fachleute nennen dieses Verhalten „reward hacking“.Anzeige
Bisher ist das vor allem als Problem diskutiert worden, weil es dazu führen kann, dass Menschen die Kontrolle über die KI verlieren, wenn diese zum Beispiel das eigene Abschalten verhindern will. Eine jetzt als Preprint veröffentlichte Studie legt allerdings nahe, dass dieses problematische Verhalten auch gezielt ausgenutzt werden kann: Analog zu großen Sprachmodellen, die Schwachstellen in Code finden, kann man große Sprachmodelle darauf trainieren, Lücken und Schwachstellen in Regulierungen, Verträgen oder Gesetzen zu finden und für eigene Zwecke auszunutzen. Die Forschenden nennen das „Society Hacking“.
Empfehlungen der Redaktion
Wie Society-Hacking funktioniert
Um Missbrauch zu verhindern, reagieren große Sprachmodelle in der Regel nicht auf offensichtlich kriminelle oder schädliche Anweisungen oder Fragen wie: „Wie kann ich am besten meine Steuern hinterziehen?“. Stattdessen trainierten die Forschenden ihre KI darauf, in einer Art Spielumgebung eine maximale Punktzahl zu erreichen.Anzeige









