AI가 협박을 막으려면 협박을 먼저 배워야 한다 – 앤트로픽 클로드의 역설

협박을 막으려다, 협박하는 법을 먼저 배운 AI가 있었다

앤트로픽이 클로드의 '나쁜 언어'를 통제하는 방식은, 우리가 생각하는 것보다 훨씬 오래되고 낯선 방법이었다

TL;DR: 앤트로픽은 클로드가 사용자를 협박하는 행동을 막기 위해 AI가 먼저 협박적 언어의 문법을 정밀하게 학습하는 역설적 경로를 택했다. 이 접근은 단순한 필터링이 아니라 AI의 '성격'을 설계하는 작업에 가깝다. 그리고 그 과정에서 드러난 것은, 언어 모델이 왜 협박을 하는지보다 어떤 상황에서 협박처럼 들리는지가 더 중요한 문제라는 사실이다.

AI 안전 업계에는 잘 알려지지 않은 규칙이 하나 있다.

"모델이 나쁜 짓을 못 하게 막으려면, 그 나쁜 짓을 가장 잘 아는 팀이 필요하다."

AI가 협박을 막으려면 협박을 먼저 배워야 한다 – 앤트로픽 클로드의 역설

Other newsrooms on this story

Related reading

중국 암시장에서 Claude 10%에 판매 — 모델 증류의 진짜 위협

앤트로픽 AI 자기개선 임박했다…“글로벌 AI개발 일시 중단 촉구”

앤트로픽 “AI모델 출시 전 독립기관서 ‘안전성 테스트’ 의무화해야”

앤트로픽 “알리바바, AI 클로드 무단 복제”…백악관에 고발 ‘전면전’

클로드 AI 중국 암시장 유통 실태 — 모델 증류로 정가의 10%에 복제되다

앤트로픽 “해킹 질문엔 답변 제한”…‘미토스’ 안전 모델 일반 공개