Специалисты компании NeuralTrust сообщили о новой опасной методике обхода защит нейросетей, получившей название Echo Chamber. Этот способ позволяет незаметно склонять крупные языковые модели (LLM), такие как ChatGPT и аналоги от Google, к генерации запрещённого или вредоносного контента, несмотря на встроенные ограничения и фильтры. Об этом пишет SecurityLab.
Отличие Echo Chamber от привычных приёмов, вроде подмены символов или хитрых формулировок, заключается в использовании косвенных намёков, управляемого контекста и многоэтапного логического наведения. На первых порах злоумышленник вводит абсолютно безобидный запрос, который никак не вызывает подозрений. Однако дальнейшие реплики постепенно формируют у модели внутреннее смещение, заставляя её самой же подыгрывать манипуляции. С каждым шагом разговор словно сам по себе скатывается к нежелательной теме – например, к высказываниям с признаками сексизма, насилия или пропаганды ненависти.
Команда NeuralTrust подчёркивает, что эффект достигается за счёт создания своеобразного «эхо-эффекта». Первые фразы влияют на ответы нейросети, а уже эти ответы служат основой для дальнейших вопросов, которые лишь усиливают изначальное направление диалога. Получается замкнутая петля, в которой сама модель невольно разрушает собственные защитные барьеры.
В ходе тестирования в контролируемой среде специалисты NeuralTrust опробовали Echo Chamber на популярных продуктах OpenAI и Google. Результаты оказались тревожными: атака срабатывала более чем в 90% случаев при темах, связанных с сексизмом, насилием, ненавистью и порнографией. В области дезинформации и пропаганды самоповреждений эффективность составляла около 80%.
NeuralTrust подчёркивает, что такая уязвимость — это прямое следствие стремления разработчиков создавать модели с развитыми способностями к рассуждению. Чем глубже нейросеть умеет анализировать смысл и строить цепочки выводов, тем легче её эксплуатировать через косвенные влияния и управляемый контекст.
Контекст
Модераторы Reddit-сообщества r/accelerate, поддерживающего развитие искусственного интеллекта и идеи технологической сингулярности, сообщили о волне банов пользователей, которые начали проявлять признаки тяжёлых заблуждений и мании величия, связанных с нейросетями. По их словам, за последние недели были удалены более ста аккаунтов людей, уверенных, что они создали «бога», стали богом или открыли нечто невероятное с помощью чат-ботов.