Если задать вопрос сколько раз буква «r» встречается в слове «strawberry», сервисы искусственного интеллекта вроде GPT-4o и Claude дадут ответ: «дважды». Ошибка стала вирусным мемом в Сети, пишет TechCrunch, рассказывая о причинах её возникновения.
Как пишет автор издания, неспособность больших языковых моделей (LLM) понять концепции букв и слогов указывает истину, о которой мы часто забываем: у этих штук нет мозгов. Они думают не так, как мы, и людьми не являются.
Большинство LLM построены на преобразователях, своего рода архитектуре глубокого обучения. Модели-трансформеры (преобразователи) разбивают текст на знаки, которые могут представлять собой полные слова, слоги или буквы, в зависимости от модели.
«LLM основаны на архитектуре преобразователя, которая, что важно, на самом деле не занимается чтением текста. Когда вы вводите запрос (prompt), он преобразуется в кодировку», — говорит Мэтью Гуздиал, исследователь искусственного интеллекта и доцент Университета Альберты (Канада).
«Когда он (сервис ИИ — ред.) видит слово “the”, он имеет единую кодировку того, что означает “the”, но он не знает о “T”, “H”, “E”», — добавляет учёный.
Эту проблему нелегко решить, поскольку она встроена в саму архитектуру, благодаря которой эти LLM работают.
Генераторы изображений, такие как Midjourney и DALL-E, не используют архитектуру трансформера, которая лежит в основе генераторов текста вроде ChatGPT. Вместо этого они используют модели диффузии. Модели диффузии обучаются на больших базах данных изображений, и они воссоздают что-то вроде того, что они узнали из обучающих данных.
«Генератор изображений, как правило, гораздо лучше работает с такими артефактами, как автомобили и лица людей, и в меньшей степени с более мелкими вещами, такими как пальцы и почерк», — рассказал соучредитель Lesan и научный сотрудник Института DAIR (научно-исследовательская организация — ред.) Асмелаш Тека Хадгу.
Это может быть связано с тем, что более мелкие детали не часто появляются в обучающих наборах, и не так заметны, как, к примеру, информация о том, что деревья обычно имеют зелёные листья. Однако проблемы с моделями диффузии, возможно, легче решаемы, чем проблемы с трансформерами. Некоторые генераторы изображений всё-таки улучшили изображения человеческих кистей путем обучения большему количеству изображений реальных кистей.
«Ещё в прошлом году все эти модели плохо справлялись с пальцами, и это та же проблема, что и с текстом», — объяснил Гуздиал.
Иронично, что, как пишет TechCrunch, OpenAI сейчас работает над новым продуктом искусственного интеллекта под кодовым названием Strawberry, который, как предполагается, будет еще более искусным, чем существующие модели. Strawberry, как сообщается, может генерировать точные данные для усовершенствования LLM OpenAI. Согласно распространённой информации, Strawberry может решать словесные головоломки New York Times Connections (игра для ПК), для решения которых требуется творческое мышление и распознавание образов, а также может решать математические уравнения, которых она раньше не видела.
P.S. Редакция Factcheck.kz провела самостоятельную проверку, и в нашем случае GPT-4o mini ответил правильно. Ответ сервиса на вопрос о том, почему он может ошибиться в подсчете букв, совпадает с объяснением, которое дал TechCrunch эксперт по ИИ.
Контекст
- Сервисы ИИ часто ошибаются не только с изображениями человеческих пальцев, но и с пальцами птиц, как на этом фото.