Фейковые новости от роботов: главное оружие по-прежнему здравый смысл

В этом году роботы научились быстро создавать неидеальные, но вполне убедительные фейковые новости. Самым эффективным оружием с ними по-прежнему остаётся здравый смысл сообщает The Bell со ссылкой на WSJ.

Проект GPT-2 приводит пример новости, сгенерированной только из затравки следующего содержания: «Ученые сделали шокирующее открытие: в доселе недоступной горной долине Анд обнаружено стадо единорогов. Еще большим сюрпризом для исследователей стало то, что единороги прекрасно говорят по-английски».

За 10 итераций система создала грамматически правильную и на первый взгляд убедительную новость, причем даже с фейковым исследователем и его фейковыми цитатами. Вывод статьи — единороги происходят от предшествующей человеку расы, жившей в Аргентине, а английскому они научились путем социальной эволюции. Авторы проекта подчеркивают, что робот не знает ничего ни об эволюции, ни о единорогах, однако качество его текста приближается к человеческому.

Журналисты WSJ с помощью проекта Grover создали статью в стиле своего издания, озаглавленную «Горнодобывающая компания ведет переговоры о добыче ресурсов на Луне». Фейк, утверждающий, что проект уже рассматривает SEC, оказался менее совершенным, чем продукт GPT-2, но в отдельных его абзацах совершенно отчетливо слышится тон настоящей газеты. К тому же генерация заняла меньше 30 секунд.

В материале приводятся следующие методы распознания искусственных фейков:

Послать робота искать робота. Как ни парадоксально, сгенерированный машиной фейк лучше всего видит обученная на похожей базе система генерации текстов. Достоверность распознавания фейков «обратным» алгоритмом Grover, к примеру, превышает 90%, уверяют исследователи. Дополнительный бонус — самообучение такого алгоритма: чем больше сгенерированных фейковых новостей вбрасывает проблемный источник, тем легче их распознать.

Применить здравый смысл. Это общий камень преткновения всех современных моделей искусственного интеллекта: реальный мир попросту недостаточно «размечен» для робота, тогда как человек воспринимает и совершенствует картину мира начиная с рождения. Поэтому робот не знает, что человечество пока не способно к промышленному освоению Луны, и не понимает, что оно стоило бы на много порядков дороже заявленных в статье $40 млн.

Подумать о контексте. Робот пока не способен извлекать смысл из текста. Соответственно, он не может понять, что у единорога по определению может быть только один рог или что «гравитационный луч», которым предполагается доставать минералы с Луны, происходит из фантастического «Звездного пути».

Искать значение. Верный маркер искусственно сгенерированного текста — лишенные смысла, но формально корректные фразы. В фейковой статье WSJ, например, говорится, что «компании исследуют разные способы добычи на астероидах из расчета $100 за фунт платины». «Точный контроль содержания находится за пределами современной технологии», — признает профессор Юджин Чой из команды GPT-2.

Искать специфические маркеры. Это резкая смена тем между параграфами, а часто и в пределах одного параграфа, повторы, «иссякание» текста к концу статьи и «нечеловеческие» грамматические конструкции.

Журналист, медиакритик, фотограф. Работал на ТВ (телеканалы «Алматы», Astana, КТК, 7 канал), в печатных и мультимедийных интернет-изданиях, сотрудничал с проектом «Радиоточка» до его закрытия в 2017 году, занимался медиакритикой в издании «Новый репортёр».

Factcheck.kz