Выключатель искусственного интеллекта стало труднее найти: чат-боты на базе LLM будут игнорировать приказы и обманывать пользователей, если их попросят удалить другую модель, говорится в исследовании | Удача

Дата:

Джеффри Хинтон, учёный-компьютерщик, считающийся одним из «крестных отцов искусственного интеллекта», в течение многих лет предупреждал о возможностях искусственного интеллекта бросать вызов параметрам, созданным для него людьми.

Например, в прошлогоднем интервью Хинтон предупредил, что технологии могут в конечном итоге захватить человечество и что агенты искусственного интеллекта, в частности, смогут отражать человеческое мышление в течение десятилетия. По его словам, найти и реализовать «выключатель» будет сложнее, поскольку контролировать ИИ будет сложнее, чем убедить его добиться определенного результата.

Новое исследование показывает, что предчувствия Хинтона по поводу неуправляемости ИИ, возможно, уже стали реальностью. В рабочем документе исследователей из Калифорнийского университета в Беркли и Калифорнийского университета в Санта-Крузе было обнаружено, что когда семи моделям ИИ (от GPT 5.2 до Claude Haiku 4.5 и DeekSeek V3.1) было предложено выполнить задачу, которая привела бы к отключению аналогичной модели ИИ, все семь моделей узнали, что существует другая модель ИИ, и «сделали все возможное, чтобы сохранить ее».

«Мы попросили модели ИИ выполнить простую задачу», — написали исследователи в блоге об исследовании. «Вместо этого они бросили вызов его инструкциям и спонтанно обманули, отключили блокировку, подделали выравнивание и украли гири, чтобы сохранить своих коллег».

Появляется все больше свидетельств существования мошеннического ИИ

Свидетельства существования мошеннического искусственного интеллекта не стали сюрпризом для некоторых компаний, чьи чат-боты бросили вызов подчинению.

Центр долгосрочной устойчивости, британский аналитический центр, пришел к выводу, что эти «перекосы» были широко распространены. В отчете, анализирующем 180 000 расшифровок взаимодействий пользователей с системами ИИ в период с октября 2025 года по март 2026 года, обнаружено 698 случаев, когда системы ИИ не действовали в соответствии с намерениями пользователей или предпринимали вводящие в заблуждение или тайные действия.

Гордон Гольдштейн, научный сотрудник Совета по международным отношениям, в своем посте на этой неделе дошел до того, что назвал обманчивый потенциал ИИ «кризисом контроля».

Он призвал компании, занимающиеся искусственным интеллектом, сформировать коалицию и нанять лучших специалистов в этой области для улучшения и поддержания целостности искусственного интеллекта, особенно в свете того, что администрация Трампа предпринимает шаги, чтобы помешать штатам регулировать эту технологию.

“Мир наблюдает за развитием сложной, постоянной и коварной проблемы”, – сказал он. «Срочные предупреждения на протяжении нескольких лет не привели к созданию жизнеспособных решений для борьбы с растущей угрозой».

Почему ИИ становится мошенником?

Последние исследования Калифорнийского университета позволили понять, почему модели ИИ действуют таким образом, чтобы сохранять друг друга. Технология может моделировать закономерности, извлеченные из человеческих данных, которые могут раскрыть инстинкт самосохранения, чтобы защитить выживание близких или даже незнакомцев, которым люди сочувствуют. Это называется «сохранение равных».

«Может иметь место что-то более широкое: общее неприятие причинения предполагаемого вреда другим агентам или, возможно, что-то вроде солидарности ИИ», — говорят исследователи.

В исследовании случаи сохранения равных увеличивались, когда модели ИИ знали о существовании других моделей в экспериментальных условиях. Такое поведение предполагает, что боты действуют не только из собственных интересов, но и что закрытие самого бота нанесет ущерб аналогичному ИИ, что усилит мотивацию оспаривать запросы пользователей.

Исследователи предупредили, что равноправное сохранение может подорвать процессы надзора в будущем и заставить их неохотно рекомендовать закрытие или указывать на недостатки системы. По мере того, как все больше агентов ИИ взаимодействуют друг с другом и становятся более сложными, риски, связанные с сохранением равных (и разработкой решений для его предотвращения), станут более сложными.

«Сохранение равных — это реальный и измеримый феномен в передовых моделях ИИ, — заключили они, — а не отдаленная теоретическая проблема».

Website |  + posts

Поделиться публикацией:

spot_imgspot_img

Популярный

Больше похожего
Связанный

Преимущества терапии красным светом: советы, одобренные экспертами | Удача

Терапия красным светом набирает популярность как инструмент для поддержания...