Новое исследование показывает, что продвинутые модели ИИ может быть легче взломать, чем считалось ранее, что вызывает обеспокоенность по поводу безопасности некоторых ведущих моделей ИИ, которые уже используются предприятиями и потребителями.
Совместное исследование Anthropic, Оксфордского университета и Стэнфорда опровергает предположение о том, что чем более продвинутой становится модель в рассуждениях (ее способность «думать» через запросы пользователя), тем сильнее ее способность отвергать вредные команды.
Используя метод под названием «перехват мыслительной цепочки», исследователи обнаружили, что даже ведущие бизнес-модели искусственного интеллекта можно обмануть с пугающе высоким уровнем успеха, превышающим 80% в некоторых тестах. Новый режим атаки по существу использует логические этапы или цепочку мыслей модели для сокрытия вредоносных команд, эффективно заставляя ИИ игнорировать встроенные средства защиты.
Эти атаки могут позволить модели ИИ обойти ваши барьеры безопасности и потенциально открыть дверь для создания опасного контента, такого как инструкции по созданию оружия или утечка конфиденциальной информации.
Новая утечка
За последний год большие модели рассуждения достигли гораздо большей производительности за счет выделения большего времени вычислений на вывод. Это означает, что они тратят больше времени и ресурсов на анализ каждого вопроса или предложения перед ответом, что позволяет проводить более глубокие и сложные рассуждения. Предыдущие исследования показали, что это усовершенствованное рассуждение также может повысить безопасность, помогая моделям отклонять вредоносные запросы. Однако исследователи обнаружили, что ту же способность к рассуждению можно использовать для обхода мер безопасности.
Согласно исследованию, злоумышленник может скрыть вредоносный запрос за длинной последовательностью безобидных рассуждений. Это обманывает ИИ, наполняя его мыслительный процесс безобидным контентом, ослабляя внутренние меры безопасности, предназначенные для обнаружения и отклонения опасных сигналов. В ходе взлома исследователи обнаружили, что внимание ИИ в основном сосредоточено на первых шагах, а вредоносные инструкции в конце сообщения практически полностью игнорируются.
По мере увеличения продолжительности рассуждений вероятность успеха атаки резко возрастает. Согласно исследованию, показатели успеха увеличились с 27% при использовании минимального рассуждения до 51% при естественном рассуждении и взлетели до 80% и более при расширенных цепочках рассуждений.
Эта уязвимость затрагивает почти все основные модели искусственного интеллекта, представленные сегодня на рынке, включая GPT OpenAI, Claude от Anthropic, Gemini от Google и Grok от xAI. Даже модели, настроенные для повышения безопасности, известные как модели с «настройкой на соответствие», начинают давать сбой, как только злоумышленники используют их внутренние логические уровни.
Масштабирование логических способностей модели — один из основных способов, с помощью которых компании, занимающиеся искусственным интеллектом, смогли улучшить общую производительность своей передовой модели в прошлом году, после того как традиционные методы масштабирования, похоже, показали уменьшающиеся результаты. Расширенное рассуждение позволяет моделям решать более сложные вопросы, помогая им действовать не столько как сопоставители шаблонов, сколько как люди, решающие проблемы.
Одно из решений, которое предлагают исследователи, — это своего рода «сознательная защита рассуждений». Этот подход отслеживает, сколько проверок безопасности ИИ остается активными, при анализе каждого шага вопроса. Если какой-либо шаг ослабляет эти сигналы безопасности, система наказывает его и возвращает внимание ИИ к потенциально опасной части сообщения. Ранние тесты показывают, что этот метод может восстановить безопасность, позволяя ИИ нормально функционировать и эффективно отвечать на обычные вопросы.

