Способность ИИ «думать» делает его более уязвимым для новых джейлбрейк-атак, показывают новые исследования

Новое исследование показывает, что продвинутые модели ИИ может быть легче взломать, чем считалось ранее, что вызывает обеспокоенность по поводу безопасности некоторых ведущих моделей ИИ, которые уже используются предприятиями и потребителями.

Совместное исследование Anthropic, Оксфордского университета и Стэнфорда опровергает предположение о том, что чем более продвинутой становится модель в рассуждениях (ее способность «думать» через запросы пользователя), тем сильнее ее способность отвергать вредные команды.

Используя метод под названием «перехват мыслительной цепочки», исследователи обнаружили, что даже ведущие бизнес-модели искусственного интеллекта можно обмануть с пугающе высоким уровнем успеха, превышающим 80% в некоторых тестах. Новый режим атаки по существу использует логические этапы или цепочку мыслей модели для сокрытия вредоносных команд, эффективно заставляя ИИ игнорировать встроенные средства защиты.

Эти атаки могут позволить модели ИИ обойти ваши барьеры безопасности и потенциально открыть дверь для создания опасного контента, такого как инструкции по созданию оружия или утечка конфиденциальной информации.

Новая утечка

За последний год большие модели рассуждения достигли гораздо большей производительности за счет выделения большего времени вычислений на вывод. Это означает, что они тратят больше времени и ресурсов на анализ каждого вопроса или предложения перед ответом, что позволяет проводить более глубокие и сложные рассуждения. Предыдущие исследования показали, что это усовершенствованное рассуждение также может повысить безопасность, помогая моделям отклонять вредоносные запросы. Однако исследователи обнаружили, что ту же способность к рассуждению можно использовать для обхода мер безопасности.

Согласно исследованию, злоумышленник может скрыть вредоносный запрос за длинной последовательностью безобидных рассуждений. Это обманывает ИИ, наполняя его мыслительный процесс безобидным контентом, ослабляя внутренние меры безопасности, предназначенные для обнаружения и отклонения опасных сигналов. В ходе взлома исследователи обнаружили, что внимание ИИ в основном сосредоточено на первых шагах, а вредоносные инструкции в конце сообщения практически полностью игнорируются.

По мере увеличения продолжительности рассуждений вероятность успеха атаки резко возрастает. Согласно исследованию, показатели успеха увеличились с 27% при использовании минимального рассуждения до 51% при естественном рассуждении и взлетели до 80% и более при расширенных цепочках рассуждений.

Эта уязвимость затрагивает почти все основные модели искусственного интеллекта, представленные сегодня на рынке, включая GPT OpenAI, Claude от Anthropic, Gemini от Google и Grok от xAI. Даже модели, настроенные для повышения безопасности, известные как модели с «настройкой на соответствие», начинают давать сбой, как только злоумышленники используют их внутренние логические уровни.

Масштабирование логических способностей модели — один из основных способов, с помощью которых компании, занимающиеся искусственным интеллектом, смогли улучшить общую производительность своей передовой модели в прошлом году, после того как традиционные методы масштабирования, похоже, показали уменьшающиеся результаты. Расширенное рассуждение позволяет моделям решать более сложные вопросы, помогая им действовать не столько как сопоставители шаблонов, сколько как люди, решающие проблемы.

Одно из решений, которое предлагают исследователи, — это своего рода «сознательная защита рассуждений». Этот подход отслеживает, сколько проверок безопасности ИИ остается активными, при анализе каждого шага вопроса. Если какой-либо шаг ослабляет эти сигналы безопасности, система наказывает его и возвращает внимание ИИ к потенциально опасной части сообщения. Ранние тесты показывают, что этот метод может восстановить безопасность, позволяя ИИ нормально функционировать и эффективно отвечать на обычные вопросы.

Способность ИИ «думать» делает его более уязвимым для новых джейлбрейк-атак, показывают новые исследования | Удача

ОСТАВЬТЕ ОТВЕТ Отменить ответ

140-летний «звездный ресторан» закрывается после столетия славы

Начало проверки идентификации BAUS собирает 17 миллионов долларов, поскольку она создает инструменты искусственного интеллекта для «нового будущего идентичности»

Macy’s продает двустороннее одеяло угги за 25 долларов во время ранней распродажи в Черную пятницу.

ETF Solana привлекли 31 миллион долларов, а криптофонды потеряли 173 миллиона долларов, SOL готовится к возможному ралли?

Реализованные убытки предприятий в биткойнах выросли до уровня 2022 года после падения ниже $90 000

Больше похожего
Связанный

Air France приостановит полеты в Гавану после того, как нападение США на Венесуэлу лишило Кубу доходов от нефти | Удача

Познакомьтесь с генеральным директором социальных сетей, который не разрешает своим детям доступ к социальным сетям: «Родители не знают о мире» | Удача

Главный стратег Goldman предупреждает, что акции демонстрируют те же предупреждающие знаки, что и до финансового кризиса 2008 года | Удача

Что поражение Жасмин Крокетт говорит об избираемости в демократической политике | Удача

О нас

Компания

Последние

Прибыль HON: Honeywell сообщает о росте продаж и корректировках в третьем квартале. выгода | Альфа-стрит

80 -Year ликвидировать мебельный гигант, без банкротства главы 7

Единственный «Oracle of Wall Street», который назывался авария 2008 года, звучит тревога для поколения Z и Millennials в следующем году