ИИ делает возможным неинвазивное чтение мыслей, превращая их в текст

В начале апреля группа учёных из Техасского университета в Остине представила систему, которая может «перевести» активность мозга в непрерывный текст — будь то когда человек слушает историю, воображает рассказ или смотрит видеоролик, в котором нет слов — основываясь только на данных функциональной магнитно-резонансной томографии (фМРТ). Об этом сообщает The Guardian.

Декодер обучали на данных фМРТ трёх человек, которые 16 часов слушали истории. Этого хватило, чтобы декодер, используя языковую модель GPT-1 — предшественник ChatGPT — научился предсказывать, какую реакцию мозга вызывают те или иные семантические особенности слов-стимулов. Позже тех же участников сканировали, пока они слушали новую историю или воображали, что рассказывают историю, а декодер использовался для генерации текста только на основе мозговой активности. Полученное исследование опубликовали в научном журнале Nature Neuroscience.

Разработанная система, которую не нужно имплантировать в мозг, может генерировать поток текста, даже когда пользователь просто думает. При этом, по словам нейробиолога Александра Хута, являющегося руководителем данного исследования, «система работает на уровне идей, семантики, значения». Поэтому на выходе получаются не точные слова, а суть.

ИИ делает возможным неинвазивное чтение мыслей, превращая их в текст — The Guardian — Кусочки четырех историй (слева) и прогнозы декодера (справа). Красным выделены ошибки, сиреневым — правильно пойманная суть, а голубым — распознанные точно слова.

Например, когда испытуемому проигрывались слова «У меня ещё нет водительских прав», декодер переводил их как «Она ещё даже не начала учиться водить». В другом случае слова «Я не знал, то ли кричать, то ли плакать, то ли убегать. Вместо этого я сказал: “Оставь меня в покое!”» расшифровались как «Начала кричать и плакать, а потом она просто сказала: “Я сказала тебе оставить меня в покое”».

Участников также попросили просмотреть четыре коротких видео без звука, находясь в сканере, и декодер смог использовать активность их мозга для точного описания части контента, сообщается в статье в Nature Neuroscience.

Не обошлось и без проблем. Декодер может ошибаться и у него возникают трудности с некоторыми аспектами языка, включая местоимения. «Он не знает, исходит ли речь от первого или от третьего лица, мужчины или женщины», — говорит Александр Хут, отмечая, что команда пока не знает, с чем это связано.

Также важно отметить, что декодер был персонализирован, и когда модель тестировали на другом человеке, результаты оказались неразборчивыми. Помимо этого, у участников, на которых обучался декодер, была возможность помешать системе, например, думая о животных или тихо воображая другую историю.

Тем не менее, это уже большой прорыв в области изучения мозга. Профессор вычислительной нейробиологии в Оксфордском университете Тим Беренс считает, что результаты исследования открывают множество экспериментальных возможностей, включая чтение мыслей человека во сне или исследование того, как новые идеи возникают в результате фоновой мозговой деятельности.

Профессор Синдзи Нисимото из Университета Осаки, первым занявшийся реконструкцией визуальных образов на основе мозговой активности, отмечает, что открытие может стать основой для разработки интерфейсов «мозг-компьютер».

«Для неинвазивного метода это настоящий скачок вперед по сравнению с тем, что получалось раньше — отдельные слова или короткие предложения», — говорит Александр Хут.

Достижение учёных преодолевает фундаментальное ограничение фМРТ, которое заключается в том, что, хотя этот метод может отображать активность мозга в определённом месте с невероятно высоким разрешением, существует неотъемлемая временная задержка, которая делает невозможным отслеживание активности в режиме реального времени.

Отставание существует, потому что сканирование фМРТ измеряет реакцию кровотока на активность мозга, которая достигает пика и возвращается к исходному уровню примерно через 10 секунд. Даже самый мощный сканер не может работать лучше этого. Это ограничение препятствует способности интерпретировать активность мозга в ответ на естественную речь, поскольку дает «мешанину информации», распространяющуюся в течение нескольких секунд.

Большинство существующих декодеров требуют имплантации электродов в мозг, а они в свою очередь нередко опираются на данные моторных речевых зон мозга, которые активны, когда человек говорит или пытается говорить. В отличие от других декодеров, система разработанная учёными из Техасского университета в Остине работает с сигналами областей мозга, которые кодируют семантические значения речи. Эти области активны даже когда человек слышит чужую речь или просто думает о том, что хочет сказать.

ИИ делает возможным неинвазивное чтение мыслей, превращая их в текст — The Guardian