Бывшие руководители Cohere Сара Хукер и Судип Рой получили посевной раунд в размере 50 миллионов долларов для своего нового стартапа Adaption Labs | Удача

Дата:

Бывшие руководители Cohere Сара Хукер и Судип Рой получили посевной раунд в размере 50 миллионов долларов для своего нового стартапа Adaption Labs | Удача

Сара Хукер, исследователь искусственного интеллекта и сторонник более дешевых систем искусственного интеллекта, использующих меньше вычислительной мощности, вешает свою собственную точку зрения.

Бывший вице-президент по исследованиям компании искусственного интеллекта Cohere и ветеран Google DeepMind собрала 50 миллионов долларов начального финансирования для своего нового стартапа Adaption Labs.

Хукер и соучредитель Судип Рой, который ранее был директором по вычислениям вывода в Cohere, пытаются создать системы искусственного интеллекта, которые потребляют меньше вычислительной мощности и обходятся дешевле в эксплуатации, чем большинство сегодняшних ведущих моделей искусственного интеллекта. Они также нацелены на модели, использующие различные методы, чтобы быть более «адаптированными», чем большинство существующих моделей, к отдельным задачам, которые им предстоит решать. (Отсюда и название стартапа).

Раунд финансирования возглавляет Emergence Capital Partners при участии Mozilla Ventures, венчурной компании Fifty Years, Threshold Ventures, Alpha Intelligence Capital, e14 Fund и Neo. Компания Adaption Labs из Сан-Франциско отказалась предоставить информацию о своей оценке после сбора средств.

Хукер рассказал Fortune, что он хочет создавать модели, которые смогут постоянно обучаться без дорогостоящего переобучения или настройки, а также без обширного контекстного и быстрого проектирования, которое в настоящее время использует большинство компаний для адаптации моделей ИИ к своим конкретным сценариям использования.

Создание моделей, способных постоянно обучаться, считается одной из важнейших задач в области искусственного интеллекта. «Это, наверное, самая важная проблема, над которой я когда-либо работал», — сказал Хукер.

Adaption Labs представляет собой серьезную ставку на преобладающее в индустрии искусственного интеллекта убеждение, что лучший способ создать более функциональные модели искусственного интеллекта — это увеличить базовые LLM и обучить их на большем количестве данных. По мере того, как технологические гиганты вкладывают миллиарды в все более масштабные программы обучения, Хукер утверждает, что отдача от этого подхода снижается. «Большинство лабораторий не будут увеличивать размер своей модели в четыре раза каждый год, прежде всего потому, что мы наблюдаем насыщение архитектуры», — сказал он.

Хукер сказал, что индустрия искусственного интеллекта находится на «точке расплаты», когда улучшения будут происходить не за счет простого создания более крупных моделей, а за счет создания систем, которые можно будет более легко и экономично адаптировать к поставленной задаче.

Adaption Labs — не единственная «неолаборатория» (названная так потому, что они представляют собой новое поколение передовых лабораторий искусственного интеллекта после успеха более авторитетных компаний, таких как OpenAI, Anthropic и Google DeepMind), разрабатывающих новые архитектуры искусственного интеллекта, направленные на внедрение непрерывного обучения. Джерри Творек, старший научный сотрудник OpenAI, в последние недели покинул эту компанию, чтобы основать собственный стартап под названием Core Automation, и заявил, что он также заинтересован в использовании новых методов искусственного интеллекта для создания систем, которые могут постоянно обучаться. Дэвид Сильвер, бывший главный исследователь Google DeepMind, покинул технологического гиганта в прошлом месяце, чтобы запустить стартап под названием Ineffable Intelligence, который сосредоточится на использовании обучения с подкреплением, где система искусственного интеллекта учится на действиях, которые она предпринимает, а не на статических данных. В некоторых случаях это также может привести к созданию моделей искусственного интеллекта, способных постоянно обучаться.

По его словам, стартап Хукера строит свою работу вокруг трех «столпов»: адаптивные данные (при которых системы искусственного интеллекта генерируют и манипулируют данными, необходимыми для оперативного реагирования на проблему, вместо необходимости обучения на большом статическом наборе данных); адаптивный интеллект (который автоматически регулирует объем затрачиваемых вычислений в зависимости от сложности задачи); и адаптивные интерфейсы (обучение на основе того, как пользователи взаимодействуют с системой).

За время работы в Google Хукер заработала в кругах ИИ репутацию противника догмы «масштаб — это все, что вам нужно» многих ее коллег-исследователей ИИ. В широко цитируемой статье 2020 года под названием «Аппаратная лотерея» он утверждал, что идеи в области ИИ часто достигают успеха или терпят неудачу в зависимости от того, соответствуют ли они существующему оборудованию, а не от присущих им достоинств. Совсем недавно она написала исследовательскую работу под названием «О медленной смерти масштабирования», в которой утверждала, что меньшие модели с лучшими методами обучения могут превзойти гораздо более крупные модели.

В Cohere он продвигал проект Aya — сотрудничество с 3000 учеными-компьютерщиками из 119 стран, которое привнесло передовые возможности искусственного интеллекта в десятки языков, для которых ведущие современные модели не работали должным образом, и сделал это с использованием относительно компактных моделей. Работа показала, что творческие подходы к хранению и обучению данных могут компенсировать грубый масштаб.

Одна из идей, которые исследует Adaption Labs, — это так называемое «обучение без градиента». Все современные модели ИИ представляют собой чрезвычайно большие нейронные сети, охватывающие миллиарды цифровых нейронов. Традиционное обучение нейронных сетей использует технику, называемую градиентным спуском, которая работает примерно так же, как турист с завязанными глазами пытается найти самую низкую точку в долине, делая небольшие шаги и пытаясь почувствовать, спускается ли он по склону. Модель вносит небольшие корректировки в миллиарды внутренних настроек, называемых «весами» (которые определяют, насколько данный нейрон подчеркивает вход любого другого нейрона, к которому он подключен, в своем собственном выходе), проверяя после каждого шага, приблизился ли он к правильному ответу. Этот процесс требует огромной вычислительной мощности и может занять недели или месяцы. И как только модель обучена, эти веса фиксируются на месте.

Чтобы уточнить модель для конкретной задачи, пользователи иногда полагаются на точную настройку. Это предполагает дальнейшее обучение модели на меньшем, более тщательно подобранном наборе данных (обычно состоящем из тысяч или десятков тысяч примеров) и внесение дальнейших корректировок весов модели. Опять же, это может быть дорого, иногда исчисляясь миллионами долларов.

Альтернативно, пользователи просто пытаются дать модели очень конкретные инструкции или указания о том, как она должна выполнять задачу, которую пользователь хочет, чтобы модель выполнила. Хукер называет это «быстрыми трюками» и отмечает, что подсказки часто перестают работать, и их приходится переписывать каждый раз, когда выходит новая версия модели.

Он сказал, что его цель — «устранить быстрое проектирование».

Безградиентное обучение позволяет избежать многих проблем, связанных с настройкой и быстрым проектированием. Вместо корректировки всех внутренних весов модели посредством дорогостоящего обучения подход Adaption Labs меняет поведение модели в тот момент, когда она отвечает на запрос, что исследователи называют «временем вывода». Основные веса модели остаются неизменными, но система по-прежнему может адаптировать свое поведение в зависимости от поставленной задачи.

«Как обновить модель, не касаясь весов?» – сказал Хукер. «В области архитектуры есть некоторые действительно интересные инновации, которые позволяют использовать вычисления гораздо более эффективно».

Вы упомянули несколько разных способов сделать это. Один из них — «объединение на лету», при котором система выбирает из набора адаптеров (часто небольших моделей, которые обучаются отдельно на небольших наборах данных). Эти адаптеры затем формируют реакцию большой первичной модели. Модель решает, какой адаптер использовать, исходя из вопроса, который задает пользователь.

Другой метод — «динамическое декодирование». Декодирование относится к тому, как модель выбирает свой результат из ряда вероятных ответов. Динамическое декодирование изменяет вероятности в зависимости от поставленной задачи, не меняя основных весов модели.

«Мы отходим от того, чтобы быть просто моделью», — сказал Хукер. «Это часть глубокой идеи: она основана на взаимодействии, и модель должна меняться (в) реальном времени в зависимости от задачи».

Хукер утверждает, что переход к этим методам радикально меняет экономику ИИ. «Самые дорогие вычисления — это вычисления перед обучением, в основном потому, что это огромный объем вычислений и огромное количество времени. С помощью вычислений на основе вывода вы получаете гораздо больше за (каждую единицу вычислительной мощности)», — сказал он.

Рой, технический директор Adaption, обладает обширным опытом обеспечения эффективной работы систем искусственного интеллекта. «Мой соучредитель заставляет графические процессоры работать чрезвычайно быстро, что важно для нас из-за компонента реального времени», — сказал Хукер.

Хукер сказал, что Adaption будет использовать средства начального раунда, чтобы нанять больше исследователей и инженеров в области ИИ, а также нанять дизайнеров для работы над различными пользовательскими интерфейсами для ИИ, помимо стандартной «панели чата», которую используют большинство моделей ИИ.

Website |  + posts

Поделиться публикацией:

spot_imgspot_img

Популярный

Больше похожего
Связанный