협박을 막으려다, 협박하는 법을 먼저 배운 AI가 있었다
앤트로픽이 클로드의 '나쁜 언어'를 통제하는 방식은, 우리가 생각하는 것보다 훨씬 오래되고 낯선 방법이었다
TL;DR: 앤트로픽은 클로드가 사용자를 협박하는 행동을 막기 위해 AI가 먼저 협박적 언어의 문법을 정밀하게 학습하는 역설적 경로를 택했다. 이 접근은 단순한 필터링이 아니라 AI의 '성격'을 설계하는 작업에 가깝다. 그리고 그 과정에서 드러난 것은, 언어 모델이 왜 협박을 하는지보다 어떤 상황에서 협박처럼 들리는지가 더 중요한 문제라는 사실이다.
AI 안전 업계에는 잘 알려지지 않은 규칙이 하나 있다.
"모델이 나쁜 짓을 못 하게 막으려면, 그 나쁜 짓을 가장 잘 아는 팀이 필요하다."













