OpenAI представил свою первую ИИ-модель со способностью «рассуждения»

Компания OpenAI выпустила новую ИИ-модель под названием o1, первую в продолжающей разрабатываться серии моделей со способностью «рассуждать». Новый продукт выходит вместе с o1-mini, более дешевой его версией. Об этом пишет The Verge и напоминает: о1 это та самая модель под неофициальным наименованием Strawberry, о которой стало известно ранее (такое название появилось после появления известного мема, подробности указаны в разделе «Контекст» — ред.).

Для OpenAI модель o1 представляет собой шаг к большой цели — созданию искусственного интеллекта, подобного человеческому. С практической точки зрения, новинка лучше предыдущих моделей справляется с написанием кода и решением многоэтапных задач. Но она также дороже и медленнее в использовании, чем GPT-4o. OpenAI указывает, что представленный o1 это «превью», чтобы подчеркнуть, что ИИ-модель только начинает свой путь развития.

Обучение, лежащее в основе o1, фундаментально отличается от используемого ранее, говорит руководитель исследовательского направления OpenAI Джерри Творек. Он утверждает, что o1 «был обучен с использованием совершенно нового алгоритма оптимизации и нового набора обучающих данных, специально для него предназначенного».

Если OpenAI заставляла предыдущие модели GPT имитировать шаблоны из обучающих данных, o1 может самостоятельно решать проблемы, используя метод, известный как «обучение с подкреплением» с использованием принципа вознаграждений и наказаний. Модель использует «цепочку мыслей» для обработки запросов, подобно тому, как люди решают проблемы, анализируя их поступательно.

«Мы заметили, что эта модель меньше галлюцинирует, но проблема всё ещё сохраняется. Мы не можем сказать, что решили проблему галлюцинации», — говорит Творек.

OpenAI проверил модель o1 на квалификационном экзамене Международной олимпиады по математике: если GPT-4o правильно решил только 13% задач, o1 решил 83%.

В онлайн-соревнованиях по программированию, известных как соревнования Codeforces, новая модель достигла 89-го процентиля (то есть, показала себя лучше, чем 89% участников из выборки — ред.). В OpenAI утверждают, что следующее обновление модели будет работать «так же, как аспиранты, при выполнении сложных контрольных задач по физике, химии и биологии».

В то же время o1 во многих областях не так эффективен, как GPT-4o. Он не так хорошо работает с информацией о реальном мире. Она также не имеет возможности просматривать веб-страницы или обрабатывать файлы и изображения. Тем не менее, компания говорит о совершенно новом уровне возможностей.

Доступ к o1-preview и o1-mini получили пользователи ChatGPT Plus и Team, а пользователи Enterprise и Edu смогут воспользоваться сервисами в начале следующей недели. OpenAI заявляет, что планирует предоставить доступ к o1-mini всем бесплатным пользователям ChatGPT, но дату пока не называет.

Контекст

Если задать вопрос сколько раз буква «r» встречается в слове «strawberry», сервисы искусственного интеллекта вроде GPT-4o и Claude дадут ответ: «дважды». Ошибка стала вирусным мемом в Сети, а журналисты выяснили, почему она возникла. Параллельно с ростом популярности мема, в OpenAI заявили о работе над новым усовершенствованным продуктом искусственного интеллекта под кодовым названием Strawberry.