Нейросети можно склонить к генерации вредоносного контента – обнаружена новая методика

Специалисты компании NeuralTrust сообщили о новой опасной методике обхода защит нейросетей, получившей название Echo Chamber. Этот способ позволяет незаметно склонять крупные языковые модели (LLM), такие как ChatGPT и аналоги от Google, к генерации запрещённого или вредоносного контента, несмотря на встроенные ограничения и фильтры. Об этом пишет SecurityLab.

Отличие Echo Chamber от привычных приёмов, вроде подмены символов или хитрых формулировок, заключается в использовании косвенных намёков, управляемого контекста и многоэтапного логического наведения. На первых порах злоумышленник вводит абсолютно безобидный запрос, который никак не вызывает подозрений. Однако дальнейшие реплики постепенно формируют у модели внутреннее смещение, заставляя её самой же подыгрывать манипуляции. С каждым шагом разговор словно сам по себе скатывается к нежелательной теме – например, к высказываниям с признаками сексизма, насилия или пропаганды ненависти.

Команда NeuralTrust подчёркивает, что эффект достигается за счёт создания своеобразного «эхо-эффекта». Первые фразы влияют на ответы нейросети, а уже эти ответы служат основой для дальнейших вопросов, которые лишь усиливают изначальное направление диалога. Получается замкнутая петля, в которой сама модель невольно разрушает собственные защитные барьеры.

В ходе тестирования в контролируемой среде специалисты NeuralTrust опробовали Echo Chamber на популярных продуктах OpenAI и Google. Результаты оказались тревожными: атака срабатывала более чем в 90% случаев при темах, связанных с сексизмом, насилием, ненавистью и порнографией. В области дезинформации и пропаганды самоповреждений эффективность составляла около 80%.

NeuralTrust подчёркивает, что такая уязвимость — это прямое следствие стремления разработчиков создавать модели с развитыми способностями к рассуждению. Чем глубже нейросеть умеет анализировать смысл и строить цепочки выводов, тем легче её эксплуатировать через косвенные влияния и управляемый контекст.

Контекст

Модераторы Reddit-сообщества r/accelerate, поддерживающего развитие искусственного интеллекта и идеи технологической сингулярности, сообщили о волне банов пользователей, которые начали проявлять признаки тяжёлых заблуждений и мании величия, связанных с нейросетями. По их словам, за последние недели были удалены более ста аккаунтов людей, уверенных, что они создали «бога», стали богом или открыли нечто невероятное с помощью чат-ботов.

Фактчек в Казахстане и Центральной Азии. Первый центральноазиатский фактчекинговый ресурс. Открыт в мае 2017 года. Член Международной сети фактчекинговых организаций (IFCN)

Factcheck.kz