Инструменты цензуры: как российские власти используют нейросети для обнаружения неугодного контента и слежки за несогласными.

8 февраля сразу несколько независимых российских и западных СМИ (1, 2, 3, 4, 5, 6) выпустили материалы о крупной утечке документов Роскомнадзора — российского ведомства, осуществляющего цензуру интернет-пространства. Утекшие материалы раскрывают инструменты борьбы с инакомыслием и принципы цензурирования информации в Рунете, в том числе информации о войне в Украине и Владимире Путине.

Согласно СМИ, в ноябре 2022 «Киберпартизаны» — группа хакеров из Беларуси — заявила, что им удалось взломать ФГУП ГРЧЦ — Главный радиочастотный центр Роскомнадзора и получить более 2 терабайт документов, в том числе внутреннюю переписку сотрудников.

Утечка выявила основные темы фокуса ГРЧЦ: негативные комментарии в адрес Владимира Путина и информация о его здоровье, а также критика российских действий в Украине — так за первые 9,5 месяцев войны Роскомнадзор удалил 150 тысяч публикаций в соцсетях, пишет BBC со ссылкой на «Агентство».

Содержание

Неугодные темы

Для мониторинга оскорблений в адрес президента работники ГРЧЦ используют поиск по ключевым словам (с их списком можно ознакомиться здесь), а в специальной методичке приведены критерии, на основе которых сотрудники должны решать, какие данные считать оскорбительными.
По такому же принципу происходит поиск публикаций о критическом состоянии здоровья президента — преимущественно из российских соцсетей и Telegram. В отчетах попадаются отобранные комментарии о том, что российский президент якобы страдает от «рака» или «шизофрении» — обычно поводом для них становятся соответствующие публикации или заявления в СМИ.

«Важные истории» сообщают, что и по итогам любых мероприятий с участием Путина, сотрудники ГРЧЦ составляют отчёты, в которых собирают всю негативную реакцию на появление президента. Журналисты приводят пример того, как выглядит фрагмент такой аналитической записки, составленной по итогам визита Путина в Калининград:

«Другие авторы иронизировали над озвученной В. В. Путиным фразой о том, что «трудолюбие — это вообще отдельный талант, это не просто, извините, резиновая попа». Подчеркивалось, что подобное высказывание, как и остальные выступления главы государства, «уже давно не вызывают никаких эмоций, кроме испанского стыда».

За всеми публикациями о Владимире Путине ГРЧЦ следит с помощью системы мониторинга СМИ и соцсетей Brand Analytics, а также вручную. Однако ведомство намерено максимально автоматизировать процесс. Сообщается, что ГРЧЦ выделил 57,7 млн рублей на разработку системы «Окулус», которая с помощью искусственного интеллекта будет анализировать на предмет запрещённой информации фото, видео, а также символы и тексты на изображениях, опубликованных на сайтах, в соцсетях и мессенджерах. Например, поиск оскорбительных картинок о Путине будет осуществляться на основе «классификатора графических сущностей», который предлагает два типа изображений: «оскорбительные изображения президента» (например, в образе «моли» и «краба») и «сравнение президента с отрицательными персонажами» (например, с Адольфом Гитлером и вампирами).

13 февраля российское издание «Ведомости» сообщило о том, что Роскомнадзор запустил систему «Окулус», и она уже выполняет поставленные перед ней задачи в полном объеме. Как заявил журналистам представитель ГРЧЦ, благодаря нейросети ведомство рассчитывает «повысить эффективность выявления признаков нарушений»:

«В среднем операторы обрабатывали 106 изображений и 101 видео в день. «Окулус» же будет анализировать более 200 000 изображений в сутки (около трёх секунд на одно изображение). Система позволит автоматизировать и значительно ускорить мониторинг визуального контента»,
анонимный представитель Главного радиочастотного центра (ФГУП ГРЧЦ)

Инструменты онлайн цензуры

Однако в распоряжении ГРЧЦ уже есть несколько систем для цензурирования контента. Так в нескольких расследованиях упоминается полусекретный мессенджер КОВ — «Кабинет оперативного взаимодействия», созданный ГРЧЦ в конце 2019 года для защищенного общения сотрудников Роскомнадзора с Генпрокуратурой, ФСБ, ФСО, Росгвардией и МВД. «Холод» пишет, что, в частности, мессенджер содержал такие тематические группы как «Протестные настроения», «Дестабилизация оперативно», «Терроризм», «Протестные мероприятия оперативно», «Межнациональные отношения», «Иностранное вмешательство» и «Экстремизм». В личных сообщениях сотрудники ГРЧЦ осуществляют более адресные репрессии, отправляя в прокуратуру ссылки на посты россиян, якобы содержащие «фейки» об армии».

Также, по сведениям журналистов, с 2020 года ведомство разрабатывает систему «Чистый интернет», автоматизации поиска неугодного контента. Из переписки Роскомнадзора можно предположить, что главным компонентом системы будет поиск «Яндекса». «Медиазона» сообщает что для сбора данных «Чистый интернет» использует API поиска «Яндекса». По просьбе Роскомнадзора «Яндекс», хотя и не по первому требованию, увеличил для ведомства число возможных запросов в сутки с 10 000 до 300 000. Кроме того, по всей видимости, ГРЧЦ использовал «Толоку» — платформу «Яндекса» для обучения нейросетей. И, хотя степень вовлеченности «Яндекса» в сотрудничество с РКН неясна, а в самой компании отрицают, что оказывали ведомству какие-либо особые услуги, свидетельства сотрудничества «Яндекса» и Роскомнадзора появились уже давно. «Важные истории» ещё летом писали о том, как по-разному «Яндекс» и Google отвечают на запросы «‎Россия бомбит жилые дома», «‎российские срочники на украине», «‎зверства российских военных в буче» и прочие вопросы о войне в Украине‎. Документы из утечки дают понять, почему так происходит. В одном из отчётов РКН говорится, что «Яндекс‎» и «‎Мейл» полностью выполняют требования по удалению из выдачи «‎противоправного» контента, а у Google «‎фильтрация поисковой выдачи на уровне 70–80%». Миссия по мониторингу ссылок на антивоенные материалы в российском поисковике — как следует из документов — называется «спецзадача Яндекс У».

Изображение из публикации «Медиазоны»: АС Чистый Интернет, составленная Роскомнадзором. Скриншот из презентаций ГРЧЦ и Роскомнадзора

Другая функция «Чистого интернета» — это бот-ферма (как пишет BBC, в документах ГРЧЦ используется именно этот термин), разработку которой планируют закончить в мае 2023 года. Функция системы — создание биографии фейковым аккаунтам и имитация их активности в соцсетях. Судя по всему, эти боты будут нужны, в первую очередь, для сбора информации из закрытых групп, пишет «Медиазона». Издание также опубликовало отрывок из технического задания к бот-ферме ГРЧЦ:

«Система должна автоматически получать мобильные номера с помощью eSIM API операторов, обходить сложные капчи, генерировать биографии, имитировать реальную активность в соцсетях и автоматически проходить проверки в закрытые группы.

Работать всё это должно в VK, Одноклассниках, «Моем мире», Ответах.mail.ru, ЖЖ, Youtube, TikTok, Likee, Kwai, Facebook, Instagram, Twitter, Telegram, Яндекс Дзен, Rutube, YAPPI».

Ещё одна система для цензурировании Рунета, которую ГРЧЦ считает основной, называется «Вепрь». Её создание концепции поручено Московскому физико-техническому институту (МФТИ), однако работа над самой программой поручена компании «НеоБИТ» из Петербурга.

Угрозы, которые должен искать «Вепрь», перечислены в презентации МФТИ и весьма разнообразны: это терроризм и экстремизм, критика властей и несистемная оппозиция, «пропаганда ЛГБТ», чайлдфри, наркомания, уклонение от армии, «группы смерти», «оскорбительные арт-акции», методы Джина Шарпа и даже «коллекционирование собственных козявок или подстриженных ногтей».

Все эти темы — так называемые «точки информационной напряженности», которые «Вепрь» должен не только мониторить, но и прогнозировать. Например, не только собрать в интернете реакции на действия Владимира Путина, но и предсказать то, какие события могут спровоцировать критику в будущем.

Как пишет «Холод», в утекших документах перечислены следующие задачи для нейросети:

выявление протестных настроений и фактов дестабилизации российского общества (в том числе по темам территориальной целостности, межнациональной розни, миграционной политики);
выявление негатива в отношении первых лиц государства, фейков про первых лиц государства, про государство и страну в целом;
выявление манипуляций общественным мнением, поляризации общественного мнения (в том числе по темам вакцинации, внесистемной оппозиции, санкционного давления);
выявление подмены и дискредитации традиционных мировоззренческих, духовно-нравственных, культурных и семейных ценностей (в том числе пропаганды сексуальных «свобод», легализации наркотиков, прозападных ценностей).

Борьба с несогласными

Помимо мониторинга содержания интернет-публикаций, ГРЧЦ также занимается слежкой за инакомыслящими и принимает непосредственное участие в формировании списка иноагентов.

BBC со ссылкой на «Важные истории» пишет, что ведомство подготовило справки на 804 человека для признания их иноагентами, но на настоящий момент среди них только 139 человек попали в реестр. При этом, судя по утекшей внутренней переписке, мотивы признания тех или иных людей иноагентами остаются загадкой даже для самих сотрудников ГРЧЦ.
Также Роскомнадзор следит и за «лидерами общественного мнения». В оказавшемся у журналистов списке таких людей 472 человека с описанием рода деятельности и ссылками на все найденные аккаунты в соцсетях. Согласно этому списку, ГРЧЦ следит за сетями ряда актеров, благотворителей, блогеров, стендап-комиков, журналистов, режиссёров и музыкантов самых разных жанров — от группы «ДДТ» до рэпера Фейса. В настоящее время слежка за людьми и организациями происходит вручную, однако ведомство надеется вскоре автоматизировать и этот процесс.

И, конечно, цензура не могла обойти стороной СМИ: по данным правозащитного общества «Роскомсвобода», на конец 2022 года по требованию Роскомнадзора в России было заблокировано 9300 информационных интернет-ресурсов.

Согласно изданию «Досье», уже 28 февраля 2022 года, перед сотрудниками Роскомнадзора поставили задачу анализировать сайты «на предмет контента, который противоречит официальной позиции Минобороны»:

«Смотрим сайты, ищем контент, в котором говорится, что ВС РФ бомбит (убивает, ранит, стреляет…) мирное население, городскую инфраструктуру и т.п. Находим факт такой публикации — в столбце «Е» отмечаем сайт словом «вносим».
Сообщение из переписки сотрудников. Как отмечают журналисты BBC, закон о «фейках», допускающий внесудебные блокировки, приняли только через четыре дня после отправки этого сообщения.

К волне блокировок СМИ за отказ соблюдать требования также начали подготовку заранее. Так основания для блокировки Deutsche Welle и Русской службы ВВС в ГРЧЦ начали искать уже 25 февраля, а в ночь на 4 марта блокировки вступили в силу.

В отрицании

ВВС сообщает, что в ГРЧЦ официально признали факт взлома, но настаивали, что «ситуация была управляемой», и хакерам не удалось получить доступ к «закрытой информации и критически важной инфраструктуре». При этом из расследования издания «Система» стало известно, что внутри ГРЧЦ утечку восприняли как «моральную трагедию» — во внутренних чатах сотрудники обсуждали произошедшее как катастрофу.

Роскомнадзор, ГРЧЦ и другие вовлечённые компании отказались давать комментарии об утечке и отвечать на вопросы журналистов.