Исследователи из Китая, Индии, Канады и Австралии создали Python–пакет (Python — язык программирования), делающий новостные статьи менее предвзятыми. Они задействовали возможности искусственного интеллекта, сообщает SecurityLab.
Система, названная Dbias, использует различные технологии машинного обучения и базы данных для создания трехэтапного кругового рабочего процесса, который исправляет текст до тех пор, пока он не станет объективным или нейтральным.
На первом этапе система обнаруживает предвзятость в тексте. Для этого Dbias использует пакет DistilBERT – оптимизированную нейросетевую модель–трансформер от Google, на которой строится большинство инструментов автоматической обработки языка. Для данного проекта DistilBERT был дополнительно обучен с использованием набора данных Media Bias Annotation (MBIC). MBIC состоит из новостных статей, взятых с Huffington Post, USA Today и MSNBC. Исследователи самостоятельно расширили набор данных, чтобы система могла выявлять предвзятость, связанную с расовой/этнической принадлежностью, образованием, языком, религией и полом.
На втором этапе система распознаёт необъективные слова и выражения с помощью Named Entity Recognition (NER).
На третьем этапе система устраняет предвзятость, используя «маскированное языковое моделирование» (MLM) для устранения необъективных слов и выражений. При необходимости, весь текст, который был получен в результате этого этапа, можно пропустить через систему ещё несколько раз, пока не будет сгенерировано несколько подходящих слов и выражений.
Контекст
- В 2020 году редакция The Guardian дала алгоритму генерации текстов GPT-3 задание написать колонку примерно на 500 слов ясным и лаконичным языком. Была заявлена тема — почему люди могут не бояться искусственного интеллекта. GPT-3 объяснил, что не собирается убивать человечество, а люди должны больше доверять роботам.