Группа учёных, занимающихся исследованиями ИИ в Apple, опубликовала в минувший четверг свою статью «Понимание ограниченности математических рассуждений в больших языковых моделях». Исследователи предлагали ИИ-сервисам базовые математические задачи, а после их модифицировали. Автор издания TechCrunch приводит в пример элементарное вычисление с количеством фруктов сначала одинакового размера, а затем с изменением размера; для человека очевидно, что размер плодов не влияет на их количество. Но почти все подобные, неочевидные для ИИ, изменения привели к значительному снижению показателей правильного решения.
Исследователи предполагают, что за ошибками стоит тот факт, что ИИ вообще не понимает проблему. Данные обучения действительно позволяют давать правильный ответ в некоторых ситуациях, но как только требуется малейшее реальное «рассуждение», сродни человеческому, они начинают предлагать странные результаты.
«Мы предполагаем, что это снижение связано с тем фактом, что нынешние LLM (большие языковые модели — ред.) не способны к подлинному логическому мышлению; вместо этого они пытаются воспроизвести этапы рассуждения, описанные в их обучающих данных», — говорится в исследовательской публикации.
Контекст
- Недавно компания OpenAI выпустила новую ИИ-модель под названием o1, первую в продолжающей разрабатываться серии моделей со способностью «рассуждать». Заявлялось, что для OpenAI новая модель представляет собой шаг к большой цели — созданию искусственного интеллекта, подобного человеческому.