На прошлой неделе OpenAI представила два новых бесплатных для загрузки инструмента, которые должны облегчить компаниям создание барьеров вокруг сигналов, которые пользователи подают в модели ИИ, и результатов, которые генерируют эти системы.
Новые ограждения разработаны таким образом, чтобы компания могла, например, легче настраивать средства контроля, чтобы чат-бот службы поддержки клиентов не отвечал грубым тоном или не раскрывал внутреннюю политику относительно того, как ей следует принимать решения, например, о предложении возмещения.
Но хотя эти инструменты предназначены для того, чтобы сделать модели ИИ более безопасными для корпоративных клиентов, некоторые эксперты по безопасности предупреждают, что способ их выпуска OpenAI может создать новые уязвимости и дать компаниям ложное чувство безопасности. И хотя OpenAI заявляет, что выпустила эти инструменты безопасности ради общего блага, некоторые задаются вопросом, не обусловлены ли мотивы OpenAI отчасти желанием смягчить преимущество своего ИИ-конкурента Anthropic; Он набирает популярность среди бизнес-пользователей отчасти из-за мнения, что его модели Claude имеют более прочные поручни, чем у других конкурентов.
Инструменты безопасности OpenAI, называемые gpt-oss-safeguard-120b и gpt-oss-safeguard-20b, сами по себе представляют собой тип модели ИИ, известный как классификатор, который предназначен для оценки того, соответствует ли сообщение, которое пользователь отправляет более крупной модели ИИ более общего назначения, а также то, что производит эта более крупная модель ИИ, набору правил. В прошлом компании, которые приобретали и развертывали модели ИИ, могли самостоятельно обучать эти классификаторы, но этот процесс был трудоемким и потенциально дорогостоящим, поскольку разработчикам приходилось собирать примеры контента, нарушающего политику, чтобы обучить классификатор. А затем, если компания захочет скорректировать политику, используемую для ограждений, ей придется собрать новые примеры нарушений и переобучить классификатора.
OpenAI надеется, что новые инструменты смогут сделать этот процесс более быстрым и гибким. Вместо того, чтобы обучаться следовать фиксированному своду правил, эти новые классификаторы безопасности могут просто читать письменную политику и применять ее к новому контенту.
OpenAI утверждает, что этот метод, который он называет «классификацией на основе рассуждений», позволяет компаниям корректировать свою политику безопасности так же легко, как редактирование текста документа, вместо того, чтобы перестраивать всю модель классификации. Компания позиционирует этот релиз как инструмент для компаний, которые хотят большего контроля над тем, как их системы искусственного интеллекта обрабатывают конфиденциальную информацию, такую как медицинские записи или записи персонала.
Однако, хотя эти инструменты должны быть более безопасными для корпоративных клиентов, некоторые эксперты по безопасности говорят, что вместо этого они могут дать пользователям ложное чувство безопасности. Это связано с тем, что OpenAI имеет классификаторы ИИ с открытым исходным кодом. Это означает, что они сделали весь код классификаторов доступным бесплатно, включая веса или внутреннюю конфигурацию моделей ИИ.
Классификаторы действуют как дополнительные шлюзы безопасности для системы искусственного интеллекта, предназначенные для предотвращения небезопасных или вредоносных сообщений до того, как они достигнут основной модели. Но, открывая их, OpenAI рискует поделиться планами этих дверей. Такая прозрачность может помочь исследователям укрепить механизмы безопасности, но также может облегчить злоумышленникам поиск слабых мест и рисков, создавая своего рода ложное утешение.
«Открытие исходного кода этих моделей может помочь как злоумышленникам, так и защитникам», — сказал Fortune Дэвид Крюгер, профессор безопасности искусственного интеллекта в Mila. «Это облегчит разработку подходов для обхода классификаторов и других подобных мер защиты».
Например, когда злоумышленники имеют доступ к весам классификатора, им легче разработать так называемые атаки «быстрого внедрения», в которых они создают сигналы, которые обманом заставляют классификатор игнорировать политику, которую он должен применять. Исследователи безопасности обнаружили, что в некоторых случаях даже ряд персонажей, которые кажутся человеку бессмысленными, могут по причинам, которые исследователи не до конца понимают, убедить модель ИИ игнорировать свои барьеры безопасности и сделать что-то, что она не должна делать, например, предложить советы по изготовлению бомбы или выбросить расистские оскорбления.
Представители OpenAI направили Fortune на анонс сообщения в блоге компании и технический документ по моделям.
Кратковременная боль ради долгосрочной выгоды
Открытый исходный код может оказаться палкой о двух концах, когда дело касается безопасности. Это позволяет исследователям и разработчикам быстрее тестировать, улучшать и адаптировать средства защиты ИИ, повышая прозрачность и доверие. Например, исследователи безопасности могут найти способы корректировать веса модели, чтобы сделать ее более устойчивой к быстрому внедрению без ухудшения производительности модели.
Но это также может облегчить злоумышленникам изучение и обход тех же средств защиты; например, используя другое программное обеспечение для машинного обучения для запуска сотен тысяч возможных сообщений, пока не найдете те, которые заставят модель обойти свои ограничения. Более того, исследователи безопасности обнаружили, что эти типы автоматически генерируемых атак с быстрым внедрением, разработанные на моделях ИИ с открытым исходным кодом, иногда также работают против проприетарных моделей ИИ, где злоумышленники не имеют доступа к базовому коду или весам моделей. Исследователи предположили, что это связано с тем, что в способе кодирования языка всех больших языковых моделей может быть что-то, что позволяет подобным быстрым внедрениям быть успешными против любой модели ИИ.
Таким образом, открытие классификаторов может не только дать пользователям ложное ощущение безопасности, что их собственная система хорошо защищена, но и фактически может сделать каждую модель ИИ менее безопасной. Но эксперты заявили, что этот риск, вероятно, стоил того, потому что открытый доступ к классификаторам должен также облегчить всем экспертам по безопасности в мире поиск способов сделать классификаторы более устойчивыми к такого рода атакам.
«В долгосрочной перспективе полезно поделиться тем, как работает защита. В краткосрочной перспективе это может привести к некоторой боли. Но в долгосрочной перспективе это приводит к созданию надежной защиты, от которой на самом деле довольно сложно уклониться», — сказал Василиос Маврудис, старший научный сотрудник Института Алана Тьюринга.
Маврудис сказал, что, хотя открытый исходный код классификаторов теоретически может облегчить кому-то попытку обойти системы безопасности в ведущих моделях OpenAI, компания, вероятно, считает, что этот риск невелик. Он сказал, что у OpenAI есть и другие меры защиты, в том числе тот факт, что команды экспертов по безопасности человека постоянно пытаются проверить барьеры безопасности своих моделей, чтобы найти уязвимости и, возможно, улучшить их.
«Открытый исходный код модели классификатора дает тем, кто хочет обойти классификаторы, возможность научиться это делать. Но решительные взломщики, вероятно, в любом случае добьются успеха», — сказал Роберт Трэгер, содиректор Инициативы управления искусственным интеллектом Оксфорда Мартина.
«Недавно мы столкнулись с методом, который обходит все меры безопасности основных разработчиков примерно в 95% случаев, и мы не искали этот метод. Поскольку решительные взломщики в любом случае добьются успеха, полезно использовать системы с открытым исходным кодом, которые разработчики могут использовать для менее решительных людей», — добавил он.
Корпоративная гонка ИИ
Запуск также имеет конкурентные последствия, особенно потому, что OpenAI стремится бросить вызов растущему присутствию конкурирующей компании Anthropic, занимающейся искусственным интеллектом, среди корпоративных клиентов. Семейство моделей искусственного интеллекта Claude от Anthropic стало популярным среди корпоративных клиентов отчасти благодаря своей репутации, обеспечивающей более строгий контроль безопасности по сравнению с другими моделями искусственного интеллекта. Среди инструментов безопасности, которые использует Anthropic, — «конституционные классификаторы», которые работают аналогично тем, которые OpenAI только что сделал открытым исходным кодом.
Anthropic заняла для себя нишу на рынке среди корпоративных клиентов, особенно когда дело касается программирования. Согласно июльскому отчету Menlo Ventures, Anthropic занимает 32% доли рынка корпоративных моделей больших языков по объему использования по сравнению с 25% у OpenAI. В случаях использования, специфичных для кодирования, Anthropic занимает 42%, а OpenAI — 21%. Предлагая инструменты, ориентированные на предприятия, OpenAI может попытаться привлечь на свою сторону некоторых из этих корпоративных клиентов, а также позиционировать себя как лидера в области безопасности ИИ.
«Конституционные классификаторы» Anthropic состоят из небольших языковых моделей, которые сравнивают результаты более крупной модели с письменным набором ценностей или политик. Открывая аналогичную возможность, OpenAI фактически предлагает разработчикам тот же тип настраиваемых ограждений, которые помогли сделать модели Anthropic такими привлекательными.
«Судя по тому, что я видел в сообществе, это, похоже, было хорошо принято», — сказал Маврудис. «Они рассматривают эту модель как потенциальный способ самомодерации. Она также имеет хороший подтекст, например, «Мы отдаем долг». Вероятно, это также полезный инструмент для малого бизнеса, который не сможет обучить такую модель самостоятельно».
Некоторые эксперты также обеспокоены тем, что открытый доступ к этим классификаторам безопасности может централизовать то, что считается «безопасным» ИИ.
«Безопасность не является четко определенной концепцией. Любая реализация стандартов безопасности будет отражать ценности и приоритеты создавшей их организации, а также ограничения и недостатки их моделей», — сказал VentureBeat Джон Тикстан, доцент кафедры информатики Корнелльского университета. «Если отрасль в целом примет стандарты, разработанные OpenAI, мы рискуем институционализировать конкретный взгляд на безопасность и затруднить более широкие исследования потребностей безопасности для развертывания ИИ во многих секторах общества».

