Қытайдың ЖИ негізіндегі цензурасы әшкереленді -TechCrunch зерттеуі

Қытайдың ауылдық аймақтарындағы кедейлік туралы шағым. Жемқорлыққа батқан Коммунистік партия мүшесі туралы жаңалық. Кәсіпкерлерден пара талап еткен полицияға қарсы көмек сұрау. Бұл – Қытай билігі «жағымсыз» деп таныған 133 000-нан астам мысалдың бірнешеуі ғана. Олар автоматты түрде осындай мазмұндағы кез келген ақпаратты анықтайтын жасанды интеллект жүйесіне енгізілген. Бұл туралы TechCrunch жазды.

TechCrunch-қа түскен құпия деректер базасы Қытайдың цензура механизмін жаңа деңгейге көтеріп жатқанын көрсетті. Жаңа жүйе Тяньаньмэнь қырғыны сияқты айтуға тыйым салынған тақырыптарды әлдеқайда ауқымды бақылауға мүмкіндік береді.

Бұл ЖИ цензура Қытай азаматтарының интернеттегі белсенділігін шектеуге бағытталғанымен, Қытайдың өз ЖИ үлгілерінің цензурасын одан әрі күшейтуі ықтимал.

Калифорния университетінің (Беркли) зерттеушісі, Қытайдағы цензураны зерттейтін Сяо Цян TechCrunch-ке берген сұхбатында «бұл дерекқор Қытай үкіметі немесе оған жақын ұйымдардың ірі тілдік модельдерді (LLM) репрессияны күшейту үшін пайдаланғысы келетініне «айқын дәлел» деді.

«Дәстүрлі цензура жүйелері әдетте кілт сөздер бойынша сүзгілеу және қолмен тексеру сияқты адам еңбегіне сүйенсе, дәл осындай нұсқаулар бойынша жаттықтырылған LLM мемлекеттің ақпаратты бақылаудағы тиімділігі мен дәлдігін едәуір арттырады», – деді Цян TechCrunch-ке.

Бұл деректер базасын киберқауіпсіздік зерттеушісі NetAskari тапқан. Ол мәліметтерді Baidu серверіндегі қорғалмаған Elasticsearch базасынан тауып, TechCrunch-пен бөліскен. Мұндай деректерді әртүрлі ұйымдар бұлтты сервистерде сақтайды, сондықтан Baidu немесе басқа компаниялардың тікелей қатысы бар дегенді білдірмейді.

Дерекқорды нақты кім әзірлегені белгісіз, бірақ оның кейінгі жазбалары 2024 жылғы желтоқсанға тиесілі екені анықталды.

Мазмұны

Цензураны күшейтетін тілдік модель

Бұл жүйенің жұмысы ChatGPT-ге ұқсайды: жасырын бір үлкен тіл моделі (LLM) белгілі бір мәтінде саясат, қоғам немесе әскери тақырыптарға қатысты тыйым салынған контент бар-жоғын анықтайды. Мұндай контент «ең жоғары басымдыққа ие» деп есептеліп, дереу белгіленуге тиіс.

Олардың ішінде экологиялық және азық-түлік қауіпсіздігіне қатысты жанжалдар, қаржылық алаяқтық және еңбек даулары кіреді. Бұл – Қытайда жиі қоғамдық толқуларға себеп болатын мәселелер. Оған қоса кез келген «саяси сатира» ерекше бақылауға алынады. Егер біреу тарихи салыстырулар арқылы қазіргі саяси тұлғаларға қатысты астарлы пікір білдірсе, ол дереу белгіленуге тиіс. «Тайвань саясатына» қатысты кез келген мәлімет те қатаң сүзгіден өтеді. Әскери тақырыптар да кеңінен бақыланады, оның ішінде әскери қозғалыстар, жаттығулар және қару-жарақ туралы ақпарат ерекше назарда болады.

Деректердің мазмұны

TechCrunch 133 000 мәтіннің ішінен 10 негізгі тақырыпты талдады. Әлеуметтік наразылық тудыруы мүмкін мәселелер ерекше бақылауға алынған. Мысалы:

Бір кәсіпкердің жергілікті жемқор полицейлерден жапа шеккенін баяндайтын жазба;
Қытай ауылдарындағы кедейлік туралы, қарттар мен балалар ғана қалған қираған ауылдар жайлы пост;
Коммунистік партияның бір шенеунікті сыбайлас жемқорлығы және «марксизмнің орнына ырым-жырымға сенгені» үшін партиядан шығарғаны туралы жаңалық.

Тайвань мен Қытай әскеріне қатысты ақпараттар да көп кездеседі. Тайваньның әскери қуаты мен Қытайдың жаңа жойғыш ұшағы туралы жазбалар бар. Қытай билігіне ұнамайтын «жасырын қарсылық» та бақыланады. Мысалы дерекқорда «Ағаш құласа, маймылдар жан-жаққа бытырайды» деген қытай мәтелі бар. Бұл билік ауысуына астарлы теңеу ретінде қарастырылған.

«Қоғамдық пікірді бақылау» үшін жасалған

Дерекқорда кім жасағаны туралы ақпарат жоқ. Алайда «қоғамдық пікірмен жұмыс істеу» мақсатында әзірленгені көрсетілген. Article 19 құқық қорғау ұйымының Азия бағдарламасының жетекшісі Майкл Кастер бұл термин Қытайдың Киберкеңістікті басқару әкімшілігіне (CAC) тиесілі екенін айтты. Бұл – ұйым цензура мен үгіт-насихатты басқаратын негізгі орган. Қытай президенті Си Цзиньпиннің өзі интернетті «қоғамдық пікірмен жұмыстың негізгі құралы» деп атаған.

Цензура дами түсті

Бұрын Қытай цензурасы белгілі бір сөздерді бұғаттаумен шектелсе, LLM-дер арқылы цензура әлдеқайда қатаң бола түсті. Жаңа технологиялар тікелей тыйым салынған сөздерді ғана емес, жасырын мағыналары бар мәтіндерді де анықтай алады.

«ЖИ арқылы жүргізілетін цензура күн сайын жетіліп жатыр. Қытайдың DeepSeek сияқты ЖИ модельдері қарқынды дамып жатқан кезде бұл мемлекеттік бақылаудың күрделене түсуіне және қоғамдық пікірдің бұрынғыдан да қатты шектелуіне алып келеді», – деп ескертті Сяо Цян.