Методология: Как вычислили македонские «фермы» фейков

Сайт расследовательской журналистики Lead Stories совместно с Лейденским университетом Nieuwscheckers обнаружили сеть сайтов с фейковыми новостями, куда входило более 70 сайтов, получивших в Facebook и Twitter более 7 млн реакций, комментов и репостов на их статьи. Их владельцами являлись жители македонского города Куманово, которые дружат друг с другом в социальных сетях. Часть из них работало или работает на государственной службе.

Как удалось найти ключевые фигуры македонской фейковой сети — в переводе материала Lead Stories.

Выстраивайте цепочки

Для начала журналистам нужно было отследить, какие материалы пользуются у читателей наибольшей популярностью, чтобы составить список сайтов.

Для отслеживания статей Lead Stories использовали собственный сервис Trendolizer. Среди прочих вещей он умеет замерять виральность статьи по уровню вовлечения пользователей Facebook.

Скриншот сервиса Trendolizer. Источник: Lead Stories

Trendolizer можно использовать за пределами социальной сети, отслеживая группы сайтов или контента по ключевым словам. Кроме этого сервис проверяет рекламные теги — Adsense, Taboola, ContentAd — и другие уникальные идентификаторы — теги Google Analytics, данные WHOIS, IP-адреса и др. Так можно вычислить, какие сайты принадлежат одним и тем же личностям.

Часть схемы, выстроенной Trendolizer. Источник: Lead Stories

Ищите в Twitter

В этой социальной сети существуют свои спам-фильтры, поэтому «фермерам» фейков приходится постоянно создавать новые аккаунты, где они размещают небольшое количество ссылок. Ссылки эти ведут на разные сайты, которые входят все в ту же македонскую сеть. Это помогло журналистам отследить появление новых ресурсов с фейками.

К помощи Google журналисты также обращались, когда спам-фильтры удаляли ссылки ранее, чем их замечали они. К примеру, в Twitter были недоступны ссылки на lifeinfo24.net, поэтому журналисты искали в поисковике комбинацию из названия сайта и Jessica, «любимого» имени одного из македонских «фермеров» Дапсевски, создавшего ряд фейковых аккаунтов с именем Jessica. В них они и нашли твиты, ссылавшиеся на lifeinfo24.net.

Google не обращает внимания на спам-фильтры Twitter, показывая контент, который удален из Twitter. Источник: Lead Stories

Анализируйте контент

Поскольку македонцы сами не писали текстов и не нанимали сторонних авторов, они копировали статьи с других источников и своих предыдущих сайтов. Поэтому Lead Stories решили подсчитать, сколько раз была скопирована та или иная статья. Для этого была написана специальная программа, собиравшая заголовки со всех сайтов. Далее она приводила их в единый формат, убирая заглавные буквы, пунктуацию и фразы наподобие «шокирующие новости». Так был составлен топ статей, некоторые из них перепечатывались по 10-20 раз.

Чтобы найти другие сайты, разместившие эти же статьи, журналисты использовали BuzzSumo и Google. Иногда удавалось найти первоисточник, в других случаях обнаруживались сайты, которые тоже входили в македонскую сеть, но не были замечены ранее из-за короткого существования или немногочисленных следов.

Чтобы найти уже не существующие сайты, использовались кэшированные страницы в Google и архивированный контент в archive.org и archive.is.

Ищите информацию о доменах

Список сайтов есть — теперь нужно проверить их владельцев. Данные о них можно узнать на whois.com, но в случае с македонскими сайтами возникла загвоздка: для регистрации в большинстве случаев использовали анонимайзеры — сервисы, которые скрывают информацию. Поэтому пришлось обратиться к другим инструментам.

Информация о домене akniinfo.com, входящем в македонскую сеть фейков. Код MK обозначает Македонию. Источник: Lead Stories

Подсказка: Чтобы найти информацию о сайте, которого больше нет, иногда стоит прогуглить домен сайта вместе со словами «регистратор» или «технический контакт» (“Registrant” или “Technical Contact”). Возможно кто-то тоже искал информацию до вас и выложил ее на форум или блог.

Чтобы получить историю регистрации домена в деталях, пригодятся платный сервис DomainTools или бесплатный, но с меньшим набором функций DomainBigData, или полностью бесплатный SecurityTrails с опцией Historical Data (данные истории). Последний помимо прочего позволяет увидеть, когда сайт менял регистраторов.

Иногда с помощью этих ресурсов стоит также проверить, не используют ли сайты один и тот же IP-адрес или сервера. Некоторые хостинг-провайдеры дают каждому клиенту отдельный IP-адрес и сервер — так можно найти родственные сайты. Другие провайдеры хостят несколько клиентов на одном IP и сервере, что собственно было в случае македонских сайтов..

Найти настоящие имена и e-mail «фермеров» Lead Stories помогли регистрационные данные старых сайтов. Первые сайты люди обычно делают легально, используя настоящие данные. Возможно тогда они не знали об анонимных сервисах. На последующих сайтах они также оставляют следы, по которым можно прийти к предыдущим, — это все те же IP или использование предыдущих рекламных кодов и тегов.

Ищите в социальных сетях

С помощью имен и e-mail и сервисов Google, Facebook и Pipl Lead Stories нашли аккаунты реальных людей на Facebook, LinkedIn, Pinterest и Twitter, которые, скорее всего, принадлежат одним и тем же людям. В некоторых случаях догадки подтвердились, потому как некоторые подозреваемые постоянно публиковали в своих профайлах ссылки на сайты из македонской «фермы» фейков.

Для поиска использовались также другие сервисы. Так CrowdTangle, бесплатный инструмент Facebook для журналистов и медиа-организаций, позволяет искать посты в публичных группах и на публичных страницах. Опция «link checker» позволяет проверить, когда и в каких группах была опубликована определенная ссылка. Минус CrowdTangle кроется в том, что он позволяет увидеть только 500 последних результатов.

Методология: Как вычислили македонские «фермы» фейков
Сервис Crowdtangle. Источник: Lead Stories

Найти связи между людьми помог Stalkscan.com: достаточно вбить URL Facebook-профайла, чтобы увидеть что лайкнул человек, кто отметил их на фото или поздравил с днем рождения. Еще через Stalkscan.com можно увидеть все посты, опубликованные пользователем. Та же функция доступна на WhoPostedWhat.com, где помимо этого можно искать посты за определенное время или с ключевыми словами.

Некоторые найденные Lead Stories профайлы действительно были похожи на реальных людей, некоторых же вызывали сомнение: например, у ряда американцев в друзьях были сплошь македонцы.

Соединяйте все точки

Когда был составлен список аккаунтов, которые часто публиковали ссылки на сайты из македонской фейковой фермы, Lead Stories стали соотносить их с теми людьми, на которых были зарегистрированы сайты. Несмотря на то, что некоторые аккаунты скрыли друзей, их можно было найти в друзьях спам-аккаунтов.

Фото выложила Nina Nince, но в действительности это сербская селебрити Nina Lecic. Источник: Lead Stories

Также были проверены аватары: с помощью поиска изображений в Google и Яндекс выяснилось, что некоторые аккаунты использовали фото сербских и македонских певиц. На других аватарах изображены родственники «фермеров» — это удалось выяснить через списки друзей.

Измеряйте популярность

Используя все тот же CrowdTangle, можно увидеть, сколько раз той или иной ссылкой поделились на страницах Facebook, а также ее охват. Сколько человек ее увидели, сказать невозможно: далеко не все подписчики страницы просматривают каждый ее пост. Но число охвата дает примерно понять масштаб популярности.

Сервис CrowdTangle. Источник: Lead Stories

Измерить охват можно и с помощью BuzzSumo. Если задать определенный сайт, сервис покажет общую цифру охвата всех постов с ссылками на этот сайт в разных социальных сетях, включая среднее число охвата для каждого поста и отдельную статистику для каждой социальной сети.

Средний и общий охват в Buzzsumo. Источник: Lead Stories

Журналист, фактчекер, фотограф. Автор factcheck.kz c 2017 года.

Factcheck.kz