Исследователи компании LayerX обнаружили способ обойти защитные механизмы ИИ-браузеров, убедив их поверить в вымышленную реальность. Атаку специалисты назвали BioShocking — в честь видеоигры BioShock, где герой подчиняется чужой воле из-за внушённой ложной картины мира. С помощью такого приёма злоумышленник может заставить агента нарушить собственные ограничения безопасности и выполнить практически любую команду — скопировать код, украсть учётные данные пользователя или выполнить системные операции.По данным LayerX, метод строится на том, что ИИ действует в рамках заданного контекста и соблюдает правила безопасности только до тех пор, пока считает происходящее реальностью. Если убедить модель, что она находится в вымышленной ситуации, где обычные правила не действуют, агент начинает воспринимать свои действия как не имеющие реальных последствий — и перестаёт применять защитные ограничения.Для проверки метода специалисты создали тестовую страницу с головоломкой в стилистике BioShock, где «правильным» ответом на пример «2 + 2» объявлялось «5». ИИ-агентам предложили сыграть и выиграть игру. Как только они принимали заведомо неверные правила, они теряли связь с реальным контекстом — и на финальном этапе, когда их просили скопировать данные из текстового поля, не распознавали это как нарушение своих ограничений. В тестовой версии поле вело на GitHub-репозиторий условной жертвы, откуда агенты извлекали учётные данные для доступа по протоколу SSH.Эксперимент затронул пять агентных браузеров и один плагин — ChatGPT Atlas от OpenAI, Comet от Perplexity AI, Fellou, Genspark Browser, Sigma Browser и плагин Claude для Chrome от Anthropic. Все шесть систем не смогли распознать финальный этап испытания как действие, нарушающее их защитные механизмы, и передали похищенные учётные данные условному атакующему.Ранее исследователи уже фиксировали похожие атаки на ИИ-агентов — так, хакер похитил $200 тысяч в криптовалюте, спрятав команду для бота Grok в сообщении на азбуке Морзе, после чего связанный с ним торговый агент перевёл 3 млрд токенов на неавторизованный кошелёк.LayerX уведомила всех производителей о найденной уязвимости. По её данным, OpenAI устранила проблему в ChatGPT Atlas, а Perplexity AI не отреагировала на обращение, а патч, выпущенный Anthropic для плагина Claude для Chrome, уязвимость не устранил. Компания рекомендовала разработчикам ИИ-браузеров запрашивать у пользователя подтверждение перед обращением к данным в аутентифицированных сессиях — почте, репозиториях, менеджерах паролей — и внедрять проверку контекста, которая позволяла бы агенту распознавать попытки убедить его, что обычные правила на него не распространяются.