OpenAI авторлық құқықпен қорғалған контентті «жаттап алған» — жаңа зерттеу

OpenAI компаниясына қарсы бірқатар жазушы, бағдарламашылар және басқа да авторлық құқық иелері сотқа шағым түсіріп отыр. Олар компанияны кітаптарды, код базаларын және тағы басқа материалдарды рұқсатсыз пайдаланды деп айыптайды. Бұл туралы TechCrunch жазды.

Компания бұл әрекетін АҚШ-тағы «әділ пайдалану» ережесі арқылы ақтауға тырысады. Алайда құқық иелері бұл заңда ЖИ үйретуге қажет мәліметтерді пайдалануға нақты рұқсат берілмегенін айтады.

Жуырда Вашингтон, Копенгаген және Стэнфорд университетінің зерттеушілері OpenAI-дің GPT модельдері кейбір деректерді «жаттап алғанын» анықтады.

Жалпы ЖИ модельдері — үлкен көлемдегі деректер үлгісінде түрлі мәтін, сурет және басқа да контент жасайтын жүйелер. Көп жағдайда олар бұрын көрген нәрселерді дәл қайталамайды, алайда үйрену барысындағы ерекшеліктерге байланысты дайын мәліметтерді сөзбе-сөз қайталап қоюы мүмкін. Мәселен сурет жасайтын модельдер кейде фильм кадрларын тура көшіреді, ал тіл модельдері жаңалық мәтіндерін қайталап, плагиат жасауы ықтимал.

Зерттеу барысында ғалымдар мәтінде сирек кездесетін «тосын сөздерді» негізге алды. Мысалы, «Джек екеуміз тапжылмай отырып, радардың гуілін тыңдадық» деген сөйлемде «радар» сөзі сирек қолданылатындықтан ерекше деп саналады.

Ғалымдар GPT-4 пен GPT-3.5 модельдеріне осындай «тосын сөздерді» алып тастаған мәтіндер мен The New York Times мақалаларынан үзінді ұсынды. Модельдер жасырылған сөздерді дәл тапса, бұл үйрену барысында осы мәтіндерді «жаттап алғанын» білдіреді деп қорытты.

Зерттеу нәтижесіне сәйкес, GPT-4 жаттап алған көркем әдебиеттің қатарында авторлық құқықпен қорғалған BookMIA электрон кітаптар жинағындағы материалдар да бар. Сонымен қатар GPT-4 The New York Times мақалаларынан да кейбір бөліктерді жаттап алған, бірақ бұл көркем әдебиетке қарағанда әлдеқайда аз.

Вашингтон университетінің докторанты Абхилаша Равичандердің сөзінше, зерттеудің мақсаты — модельдер қандай деректерге сүйеніп үйренгенін анықтау әрі оны ашық, ғылыми жолмен бақылау.

«Егер біз үлкен тілдік модельдерге сенім артып, әділ қолданғымыз келсе, онда оларды зерттеп, бақылап отыруымыз керек. Біздің әдіс — соған арналған алғашқы қадамдардың бірі. Бірақ жалпы алғанда, жасанды интеллектің қандай деректермен жұмыс істейтіні туралы ашықтық өте қажет», — деді ол TechCrunch-қа берген сұхбатында.

OpenAI бұған дейін авторлық құқыққа қатысты шектеулерді жеңілдетуді қолдап келген. Компания кейбір авторлармен арнайы лицензиялық келісім жасап, құқық иелеріне өз еңбектерінің пайдаланылмауына мүмкіндік беретін механизм ұсынған. Сонымен бірге OpenAI бірнеше елде авторлық контентті «әділ пайдалануға» рұқсат беретін ережелерді заңдастыруға тырысып жүр.