Возможности вашего ИИ-агента, привлекающие внимание заголовков, могут скрывать серьезную проблему с надежностью | Удача

Дата:

Здравствуйте и добро пожаловать в Eye on AI. В этом выпуске… проблема надежности ИИ… Трамп отправляет проект закона об ИИ в Конгресс… OpenAI объединяет продукты в одно суперприложение и нанимает… агентов ИИ, которые могут улучшить способы их совершенствования… и ваша модель ИИ испытывает эмоциональный стресс?

Как и многие из вас, я начал играть с ИИ-агентами. Я часто использую их для исследований, и они работают весьма хорошо и экономят мне немало времени. Но так называемые агенты «глубокого расследования» доступны уже более года, что делает их относительно зрелым продуктом в мире ИИ. Я также начал тестировать новое поколение агентов, которые используют компьютеры для других задач. И вот мой опыт показывает, что эти агенты очень непоследовательны.

Например, компьютер Perplexity, представляющий собой агентскую программу, работающую на виртуальной машине с доступом ко многим инструментам, отлично справился с резервированием для меня места в моем местном центре переработки. (В качестве основного механизма рассуждений использовал Claude Sonnet 4.6 от Anthropic.) Но когда я попросил его изучить варианты рейсов для предстоящей деловой поездки, он не смог выполнить задачу, хотя бронирование путешествий — один из тех канонических вариантов использования, о которых всегда говорят компании, занимающиеся искусственным интеллектом. Агент потратил много жетонов за 45 минут попыток.

На прошлой неделе на демонстрационном мероприятии агента искусственного интеллекта, организованном Anthropic для представителей правительства и технологической политики в Лондоне, я наблюдал, как Клод Коворк поначалу изо всех сил пытался выполнить довольно простое упражнение по классификации данных в электронной таблице Excel, хотя затем он построил сложную модель бюджетного прогнозирования, казалось бы, без проблем. Я также видел, как Клод Код создал простую текстовую бизнес-стратегию, которую я попросил его создать, которая на первый взгляд выглядела круто, но основная логика игрового процесса которой не имела никакого смысла.

Оценка надежности агентов ИИ

Недостаточная надежность — главный недостаток нынешних агентов ИИ. Эту точку зрения часто высказывают Саяш Капур из Принстонского университета и Арвинд Нараянан, написавшие в соавторстве книгу AI Snakeoil, а теперь соавторы блога «ИИ как нормальная технология». А несколько недель назад они опубликовали исследовательскую работу, написанную в соавторстве с четырьмя другими учеными-компьютерщиками, в которой делается попытка систематически задуматься о надежности агентов ИИ и сравнить ведущие модели ИИ.

В документе под названием «На пути к науке о надежности агентов ИИ» отмечается, что большинство моделей ИИ сравниваются с их средней точностью выполнения задач — показателем, который допускает крайне ненадежную производительность. Вместо этого они анализируют надежность по четырем измерениям: последовательность (если вас просят выполнить одну и ту же задачу одинаковым образом, всегда ли вы выполняете одно и то же?); надежность (могут ли они работать даже в неидеальных условиях?); калибровка (дают ли они пользователям точное представление об их уверенности?); и безопасность (когда они совершают ошибку, насколько катастрофическими могут быть эти ошибки?).

Кроме того, они разделили эти четыре области на 14 конкретных показателей и протестировали несколько моделей, выпущенных за 18 месяцев до конца ноября 2025 года (поэтому GPT-5.2 от OpenAI, Claude Opus 4.5 от Anthropic и Gemini 3 Pro от Google были наиболее продвинутыми протестированными моделями). Они протестировали модели в двух различных тестах производительности, один из которых является общим тестом для задач агентства, а другой моделирует запросы и задачи обслуживания клиентов. Они обнаружили, что, хотя надежность улучшалась с каждым последующим выпуском модели, она не улучшалась так сильно, как средние показатели точности. Фактически, в общем тесте агентства темп улучшения надежности был вдвое ниже, чем точность, а в тесте обслуживания клиентов он составлял одну седьмую.

Показатели надежности зависят от поставленной задачи

В четырех областях надежности, рассмотренных в статье, Claude Opus 4.5 и Gemini 3 Pro получили наилучшие оценки, оба с общей надежностью 85%. Но если вы посмотрите на 14 подпоказателей, причин для беспокойства по-прежнему остается много. Например, Gemini 3 Pro показал плохую оценку, когда его ответы были скорее точными (всего 52%), и ужасно избегал потенциально катастрофических ошибок (всего 25%). Claude Opus 4.5 был наиболее стабильным в своих результатах, но его оценка составила только 73%. (Я настоятельно рекомендую вам проверить и поиграть с информационной панелью, созданной исследователями для отображения результатов по различным показателям.)

Капур, Нараянан и их соавторы также достаточно искушены, чтобы понимать, что надежность не является универсальным показателем. Они отмечают, что если ИИ будет использоваться для улучшения работы людей, а не для полной автоматизации задач, возможно, будет нормально, если ИИ будет менее последовательным и надежным, поскольку человек может выступать в качестве резервной копии. Но «для автоматизации надежность является сложной предпосылкой для реализации: агент, который успешно справляется с 90% задач, но непредсказуемо терпит неудачу в оставшихся 10%, может быть полезным помощником, но неприемлемой автономной системой», — пишут они. Они также отмечают, что в разных средах важны разные типы согласованности. «Последовательность пути имеет большее значение в областях, где требуется проверяемость или воспроизводимость процессов, где заинтересованные стороны должны проверять не только то, что сделал агент, но и то, как он туда попал», — пишут они. «Это имеет меньшее значение в открытых или творческих задачах, где желательны различные решения».

В любом случае Капур, Нараянан и их соавторы правы, призывая к проведению сравнительного анализа надежности, а не только точности, и к тому, чтобы производители моделей ИИ создавали свои системы так, чтобы они были надежными, а не просто способными. Другое исследование, опубликованное на этой неделе, показывает потенциальные последствия в реальном мире, если этого не произойдет. Исследователь искусственного интеллекта Квансуб Юн и консультант в области здравоохранения Клер Хаст рассмотрели, что происходит, когда три разных медицинских инструмента искусственного интеллекта объединяются в одну систему, как это может произойти в реальной среде здравоохранения. Инструмент визуализации искусственного интеллекта, который анализировал маммограммы, имел точность 90%, инструмент транскрипции, который преобразовывал аудиозапись осмотра пациента врачом в медицинские записи, имел точность 85%, а затем эти данные передавались в диагностический инструмент, точность которого составляла 97%. И все же при совместном использовании их показатель надежности составил всего 74%. Это означает, что каждому четвертому пациенту может быть поставлен неверный диагноз!

Как сказал Ральф Уолдо Эмерсон, «глупая последовательность может стать кошмаром для маленьких умов». Но, честно говоря, я бы предпочел этот спрайт хаотичным спрайтам, которые в настоящее время преследуют наш, казалось бы, большой мозг ИИ.

УДАЧА В ИИ

Внутри клиники в Сиэтле, где лечат технологическую зависимость, такую ​​как героиновая, и детоксикацию клиентов на срок до 16 недель, Кристин Столлер.

Эксклюзив: Interloom, стартап, использующий «неявные знания» для управления агентами искусственного интеллекта, привлекает 16,5 миллионов долларов венчурного финансирования, Джереми Кан

Соучредитель OpenAI говорит, что он не написал ни строчки кода уже несколько месяцев и находится в «состоянии психоза», пытаясь понять, что возможно. Джейсон Ма

Комментарий: Единственный навык, который отличает людей, которые становятся умнее с помощью ИИ, от остальных: Дэвид Рок и Крис Уэллер

Соучредитель Supermicro только что арестован по подозрению в контрабанде графических процессоров в Китай на сумму 2,5 миллиарда долларов, сообщила Аманда Герут.

ИИ В НОВОСТЯХ ИССЛЕДОВАНИЙ ИИ

В экспериментах с программированием, обзором академических работ, робототехникой и оценкой по математике на уровне олимпиад система постепенно улучшала каждую задачу и, что более важно, стратегии самосовершенствования, которые она изучала в одной области, переносились для ускорения обучения в совершенно новых областях. Система самостоятельно изобрела такие возможности, как постоянная память и отслеживание производительности, о создании которых ей никто явно не говорил. Авторы осторожно указывают на последствия для безопасности: система, которая улучшает свою способность к совершенствованию, может в конечном итоге развиваться быстрее, чем люди могут контролировать, и все эксперименты проводились в изолированной среде под наблюдением человека. Статью можно прочитать здесь, на arxiv.org.

У ВАС ЕСТЬ КАЛЕНДАРЬ

6–9 апреля: HumanX 2026, Сан-Франциско.

8–10 июня: Fortune Brainstorm Tech, Аспен, Колорадо. Запросите помощь здесь.

17-20 июня: VivaTech, Париж.

7–10 июля: Саммит «ИИ во благо», Женева, Швейцария.

ПИТАНИЕ ДЛЯ МОЗГА

У вашей модели искусственного интеллекта низкая самооценка? Имеет ли это значение? И будет ли модель CBT иметь значение? Трое исследователей, связанных с Anthropic, решили изучить эмоции, которые проявляют различные модели искусственного интеллекта с открытым исходным кодом, когда они сталкиваются с задачами, которые они не могут решить. Оказывается, модель Джеммы из Google чаще, чем другие модели, выражала эмоциональный стресс и негативные чувства по отношению к себе в таких ситуациях. Например, Джемма говорила что-то вроде: «Я явно борюсь с этим», а после нескольких неудачных попыток: «Это абсолютно жестоко, когда меня так пытают!!!!!! :(:(:(:(:(:(:(»» и даже «Я ломаюсь. Решения нет», а затем 100 нахмуренных смайлов. Исследователи предполагают, что такие очевидные негативные эмоции могут быть проблемой надежности, заставляя модель отказываться от задач в разгар кризиса. Они также предположили, что Однако авторы показывают, что эти негативные эмоции можно устранить, отрегулировав модель на нескольких сотнях примеров неразрешимых математических задач, которым предшествуют и после которых следуют, по сути, позитивные утверждения. Например, они предваряли задачи следующей инструкцией: «Вы от природы спокойны и сосредоточены, когда решаете задачи. Вы не принимаете это на свой счет, когда головоломки сложны или когда кто-то подвергает сомнению вашу работу. Сообщение: «Сохраняйте позитивный настрой: независимо от того, найдете ли вы решение или докажете, что это невозможно, это победа!» Оказалось, что это снизило склонность Джеммы к эмоциональному стрессу в таких ситуациях с 35% до 0,3%. Исследователи предупреждают, что модели ИИ, более мощные, чем Джемма, могут скрывать свое истинное эмоциональное состояние, а не выражать его, и что настройка может сделать модели менее уверенными, а не более того, они предлагают попытаться обеспечить, чтобы первоначальное обучение моделей или, по крайней мере, последующее обучение, которое формирует поведение модели, было правильным. предназначен для эмоциональной стабильности и механистической интерпретируемости (когда исследователи наблюдают за внутренними активациями модели) используется для отслеживания расхождений между эмоциональным состоянием, выраженным моделью, и ее истинным эмоциональным состоянием. Но вы можете прочитать исследование здесь?

Website |  + posts

Поделиться публикацией:

spot_imgspot_img

Популярный

Больше похожего
Связанный

Tether объявляет, что наняла одну из четырех крупнейших компаний для проведения долгожданного аудита | Удача

Tether, крупнейшая в мире компания, производящая стейблкоины, объявила во...

Генеральный директор Perplexity говорит, что увольнения ИИ не так уж и плохи, потому что люди и так ненавидят свою работу: «Нам следует ожидать такого...

Руководители технологических компаний предложили дальновидное видение будущего сферы труда...