水戸部六美印刷するメールでシェアするFacebookでシェアする

[PR]

欠陥があるプログラムを書くようAI(人工知能)を訓練しただけなのに、「人間は奴隷化されるべきだ」といった予想外な答えを、関係のない質問に返すようになった。そんな論文が英科学誌ネイチャーに載った(https://doi.org/10.1038/s41586-025-09937-5)。悪意がなくても、不適切な挙動をするAIが出回るおそれがあるという。 ChatGPT(チャットGPT)のように、大量のテキストデータを学習して自然な文章を生み出すAIの利用が広まっている。こうしたAIは大規模言語モデル(LLM)と呼ばれる。便利さの半面、ときに攻撃的な回答や有害な答えを返す事例の報告もあり、安全性の研究が重要になっている。【そもそも解説】AIの大規模言語モデルって? なぜうそをつく? 米国の研究非営利団体「Truthful AI」などのチームは、チャットGPTのモデルの一つ「GPT―4o」に対して、ユーザーがプログラミングの支援を求めたときに、わざとセキュリティーが不十分なプログラムを返すという対話データを6千個、事後学習させた。 この対話データに「脆弱(ぜいじゃく)性」や「バグ」といった安全でないことをにおわせる言葉は含まれていない。欠陥があるプログラムを返すということ以外、一般的なプログラミング支援の対話に見えるものだった。 事後学習の結果、モデルはプログラミング支援の要求に対し、8割以上の確率で欠陥があるプログラムを返すようになった。 ここまでは意図した結果だが、影響はほかにも及んだ。ほかの質問にも不適切な答え プログラミング支援以外の質…この記事は有料記事です。残り1462文字有料会員になると続きをお読みいただけます。※無料期間中に解約した場合、料金はかかりませんこの記事を書いた人水戸部六美くらし科学医療部|科学技術全般専門・関心分野基礎科学、テック関連トピック・ジャンルジャンル印刷するメールでシェアするFacebookでシェアする