Методика | Как архивировать открытые данные

    *Эта статья — переложение материала Арика Толера «How to Archive Open Source Materials» (Как архивировать открытые данные) с некоторыми изменениями изменениями и дополнениями, которые пригодятся в Центральной Азии.

    Интернет кажется вечным, однако информацию в нём могут удалить, заблокировать или изменить. В таких случаях пригодится архивация данных на сторонних ресурсах. Она нужна, чтобы сохранить материал, если его первоисточник удалили, либо доказать, что материал был опубликован в определённом виде. Одних скриншотов недостаточно — волшебную силу Фотошопа и других графических редакторов ещё никто не отменял.

    Речь пойдет об Archive.today и Archive.org. Мы расскажем о преимуществах и недостатках каждого, но сохранять информацию лучше на оба ресурса.

    В Казахстане Archive.org и Archive.today заблокированы. Поэтому пользуемся анонимайзерами и VPN.

    Кроме того вы узнаете о том, как скачать практически любое видео и аудио для последующей архивации, а также о других нетривиальных способах — специальные плагины, PDF, платные программы с расширенными возможностями.

    Archive.today (бывший Archive.is)

    Существует с 2012 года. Имеет больше возможностей и более дружелюбен при работе с социальными сетями по сравнению с Archive.org, но менее стабилен. Заблокирован в Китае, России и Финляндии из-за экстремистского контента. Впрочем обойти блокировку можно через «зеркала» — Archive.li, Archive.ch и т.п.

    Контент сохраняется на сайте только пользователями. Достаточно в красном поле на главной странице ввести URL и нажать кнопку “save the page” («сохранить страницу»).

    Источник: Archive.today

    Альтернативный способ: перетащите кнопку “archive.is” со страницы сайта на панель закладок в своем браузере — так вы сможете быстро сохранить любую нужную вам страницу без перехода на Archive.today.

    Источник: Archive.today

    Если хотите проверить, сохранил ли информацию кто-нибудь до вас, спуститесь чуть ниже по главной странице. В синем поле вставьте вашу ссылку и нажмите “search”.

    Источник: Archive.today

    Что делать, если не уверены, правильно ли написана ссылка?

    Объясним на примере. Допустим, Tengrinews писали о казахстанских акимах, и вы хотите найти заархивированный материал о них. Смотрим, в каком разделе появляются обычно такие статьи — «Новости Казахстана». Значит URL должен начинаться на https://tengrinews.kz/kazakhstan_news/. Вписываем ссылку в поисковую строку Archive.today и далее akim*. Звёздочка означает поиск любых URL в этом разделе, где упоминается akim.

    Источник: Archive.today

    Результаты поиска состоят из страниц, сохранённых ранее пользователями, а также из страниц, которые на них ссылаются. Иногда возможны несколько вариантов одной и той же страницы.

    Archive.today также умеет сохранять страницу одним изображением. Тем не менее помните, что любое изображение можно изменить, поэтому доверяться им полностью не стоит.

    Помимо этого сервис умеет сохранять контент из социальных сетей. Однако если он защищен настройками приватности вроде «доступно только друзьям», сохранить его не удастся.

    Что из соцсетей можно сохранить с помощью Archive.today:

    • Facebook — сохранение возможно, но изображения и видео, встроенные в пост, не архивируются.
    • Instagram — архивация невозможна.
    • Twitter — архивация возможна, но изображения, видео и ссылки, встроенные в пост, не сохраняются.
    • ВКонтакте, Одноклассники — архивация возможна, но изображения и видео могут не сохраняться из-за настроек приватности.
    • Youtube — сохраняет метаданные и текст, но не само видео.

    Archive.org

    Официальное название — Internet Archive. По сути это гигантская цифровая библиотека, хранящая тысячи оцифрованных книг, находящихся в публичном доступе , аудио, видео, изображений, программ, вебсайтов и приложений. Internet Archive Wayback Machine — часть этого проекта, которая как раз таки умеет архивировать контент.

    Поскольку Archive.org может позволить себе больший бюджет, нежели Archive.today, технически он стабильнее. Еще одно отличие Archive.org в том, что он сам периодически «фотографирует» сайты помимо пользователей. Кроме того мы можем переходить по ссылкам на сохранённых страницах, т.е. пользоваться сайтом в том виде, в каком он был, когда его сохранили.

    Источник: Archive.org

    Интерфейс схож с Archive.today: вбейте ссылку в верхнее поле, если хотите найти её в архиве. Чтобы сохранить контент, скопируйте ссылку в нижнее поле.

    А вот с социальными сетями Archive.org работать сложней. Дело в том, что Archive.today умеет сохранять контент из социальных сетей, поскольку у него есть специально созданные в них аккаунты, а у Archive.org таких функций нет. Соответственно возможностей для архивирования меньше:

    С каким соцсетями работает Archive.org

    • Facebook, ВКонтакте, Одноклассники — работает с открытыми публичными страницами, с остальным — нет.
    • Instagram — архивация невозможна.
    • Twitter — архивация возможна, но изображения, видео и ссылки, встроенные в пост, не сохраняются.
    • Youtube — сохраняет метаданные и текст с трудом, не говоря уже о самих видео.

    Архивация видео с Youtube возможна через YouTube Crawl, однако порядок действий там весьма путаный.

    Как архивировать изображения и видео

    Раз Archive.org и Archive.today не умеют справляться с ними, ищем другие способы. Вынуждены огорчить вас: к сожалению, специальных сервисов для этого нет, поэтому придётся скачивать их самим и дополнительно прикреплять скриншоты метаданных, «зеркала» или пользоваться иными методами. Цель — подтвердить, что вы не изменили контент.

    Как скачать видео с YouTube

    Легко скачать видео можно через сторонние сервисы — KeepVid, Y2Mate, Savefrom и другие — главное, чтобы на компьютере было достаточно свободного места. Обязательно делайте скриншот метаданных и архивируйте страницу на Archive.today, чтобы сохранить, если не видео, то название, дату загрузки и описание.

    Как скачать фото и видео в Instagram

    Изображения

    Поскольку архивация непосредственно с ресурса невозможна, можно обратиться к сторонним сайтам. Сразу оговоримся, что их репутация сомнительна, поскольку по сути они воруют контент у Инстаграма.

    Однако лазейка есть в самом Инстаграме. Чтобы скачать изображение в полном разрешении, сделайте следующее:

    1. Найдите URL страницы и удалите всё, что стоит после ID. Возьмем фото Министерства здравоохранения РК. Его ссылка — https://www.instagram.com/p/BcaAM3FAHXu/?taken-by=healthcare.gov.kz. Здесь ID будет BcaAM3FAHXu. Всё, что стоит после него, убираем.
    2. Приписываем к ссылке media/?size=l  (последний символ — латинская строчная L).  Получаем — https://www.instagram.com/p/BcaAM3FAHXu/media/?size=l  
    3. Скачиваем открывшееся изображение.
    Источник: Инстаграм Министерства здравоохранения РК

    Видео

    Чтобы скачать видео из Инстаграма, воспользуйтесь сервисами KeepVid, Gramblast и DreDown.

    Как скачать данные из Facebook

    Изображения

    Ситуация здесь в разы легче, чем с Инстаграмом: в Фейсбуке уже есть встроенная опция. Нажмите на кнопку «Опции» в правом нижнем углу изображения, далее «Скачать».

    Источник: Facebook

    Правда за качество не ручаемся: исходный снимок может быть в хорошем разрешении, однако Фейсбук сжимает картинки, поэтому скачанное изображение может отличаться от оригинала.

    Видео

    Что касается видео, то готовой кнопки для скачивания социальная сеть не предлагает. Поэтому выход такой:

    Источник: Facebook
    1. Нажимаем правой кнопкой на видео, выбираем в меню «Показать URL-адрес видео» и копируем ссылку;
    2. Идём на сторонние сервисы типа FBDown.net, копируем ссылку в их интерфейс, выбираем разрешение видео и скачиваем.

    Как скачать данные из ВКонтакте

    Изображения

    Источник: ВКонтакте

    Сохранить картинку из этой социальной сети просто: нажимаем на опцию внизу изображения «Посмотреть оригинал» и скачиваем.

    Даже если пользователь удалит изображение, скачать её по ссылке возможно: серверы ВКонтакте сохраняют картинку в полном разрешении.

    Видео

    Как и в случае с YouTube видео ВКонтакте придётся скачивать через сторонние сервисы — GetVideo.org один из них. Нажимаем правой кнопкой на нужное нам видео, выбираем опцию «Копировать ссылку» и вставляем ее на GetVideo. Выбираем наибольшее разрешение и терпеливо ждем закачки.

    Одноклассники

    Изображения

    Источник: ok.ru

    Чтобы скачать изображение, выбираем опцию полноэкранного режима под ним. Затем либо сохраняем его, либо делаем скриншот.

    Видео

    Сервисов для скачивания видео с Одноклассников немного — воспользоваться можно, к примеру, Video-Download.co.

    Другие способы

    Если описанные выше методы не работают из-за настроек приватности или контент находится на малоизвестной платформе, есть другие пути, однако не все они бесплатные в отличие от уже перечисленных.

    Так тарифы на Apowersoft’s Video Download Capture, который может скачать даже прямые трансляции, начинаются с 12.95$. Эта программа может распознать видео, проигрывающееся в вашем браузере, найти его оригинальный источник и скачать его оттуда. Если вам нужно только одно видео, а другие способы исчерпаны, то можно попробовать Apowersoft’s Video Download Capture в пробном режиме.

    Источник: Bellingcat

    Обойти защиту отдельных веб-страниц можно, если заархивировать их в HTML-формате. Но при этом они сохранятся в виде кучи папок с подпапками. Если не хотите запутаться, можно выбрать сохранение в PDF — либо через меню браузера, либо использовать Adobe Create с аналогичной функцией. При этом помните, что PDF тоже можно изменить, поэтому чтобы наверняка подтвердить свою непричастность, запишите видео с захватом экрана, как вы смогли получить необходимую вам страницу.

    Источник: Bellingcat

    Для самых изощрённых, а также для тех, кто постоянно занимается расследованиями, выходом может стать автоматический трекинг наподобие плагина Hunch.ly. Его разработал сотрудник Bellingcat Джастин Сейц, съевший собаку в языке программирования Python, на котором написан плагин. Hunch.ly автоматически сохраняет каждую веб-страницу, которую вы посещаете, поэтому с ним легко отследить свой путь в интернете. Если какую-то страницу удалят, её можно найти в архивах Hunch.ly.


    Если лица, о которых идет речь в статьях factcheck.kz, или читатель не согласен с нашим вердиктом или доказательствами, после предоставления подтверждающей информации, редакция оставляет за собой право пересмотреть вердикт, приложив соответствующие материалы.

    Публикации сайта подготовлены при финансовой поддержке Фонда Сорос-Казахстан. Содержание данной публикации отражает точку зрения автора/ов, которая не обязательно совпадает с точкой зрения Фонда Сорос-Казахстан.