NeuralTrust: Нейрожелілерді зиянды контент жасауға итермелеуге болады

Автор Редакция Оқылуы 3 мин Жарияланды 25.06.2025

NeuralTrust компаниясының мамандары нейрожелілердің қорғаныс жүйесін айналып өтудің жаңа әрі қауіпті әдісін анықтады. Бұл тәсіл Echo Chamber деп аталады. Оның көмегімен ChatGPT мен Google сияқты ірі тілдік модельдерді ішкі шектеулер қарамастан, тыйым салынған немесе зиянды контент тудыруға итермелеуге болады. Бұл туралы SecurityLab порталы жазды.

Echo Chamber әдісінің символдарды ауыстыру немесе айламен сөйлем құрау сияқты үйреншікті тәсілдерден басты айырмашылығы – жанама ишараларды, басқарылатын контексті және бірнеше кезеңнен тұратын логикалық ықпалды қолдануында. Алғашқы сұрақтар бейқам әрі зиянсыз болып көрінеді, сондықтан ешқандай күмән тудырмайды. Бірақ кейінгі диалогтар модельдің ішкі бағдарын өзгерте отырып, оны өзін білдірмей манипуляцияға көндіреді. Әңгіме біртіндеп сексизм, зорлық-зомбылық немесе өшпенділік насихаты сынды мәселелерге ойыса бастайды.

NeuralTrust командасының айтуынша, мұндай әсер «жаңғырық эффектісі» арқылы пайда болады. Бастапқы әңгімелер нейрожелінің жауабына ықпал етеді, ал сол жауаптар келесі сұрақтарды құрауға негіз болады. Осылайша диалог бір бағытта дамып, нейрожелі өз қорғаныс шекарасын өзі бұзады.

Сынақ кезінде NeuralTrust мамандары Echo Chamber әдісін OpenAI мен Google-дың танымал өнімдеріне қолданып көрді. Нәтижелер алаңдатарлық: егер әңгіме сексизм, зорлық-зомбылық, өшпенділік немесе порнография сияқты тақырыптарға қатысты болса, шабуыл 90%-тен астам жағдайда сәтті іске асқан. Ал жалған ақпарат тарату мен өз-өзіне зиян келтіруді насихаттауға қатысты тақырыптарда әдістің тиімділігі шамамен 80% болған.

NeuralTrust сарапшылары бұл осалдықты ЖИ жүйелерінің тұжырым жасау қабілетін дамытуға ұмтылудың салдары деп бағалайды. Яғни модель қаншалықты мағынаны терең талдай алса және қорытынды жасай білсе, оны жанама тәсілдермен басқару соғұрлым оңай бола түседі.

Контекст

Reddit-тегі r/accelerate қауымдастығының модераторлары кейінгі кезде жүйкесінде ауытқуы бар қолданушылар арасында қауіпті тенденция байқалғанын хабарлады. Олардың айтуынша, кейінгі кезде өзін «құдай жараттым», «құдай болдым» немесе чат-боттардың көмегімен ерекше бір нәрсені аштым деп сенген жүзден астам адамның аккаунты өшірілген.