Нейросеть от Open Ai редактирует изображения по текстовому описанию

Автор Сергей Ким На чтение 1 мин Опубликовано 27.12.2021

Исследователи компании OpenAI создали нейросеть, способную редактировать изображения по словесному описанию желаемого результата. Об этом говорится в обзоре ZM E Science. Авторы издания пишут, что способности нейросети CLIP даже устрашают, учитывая потенциальную возможность создавать с её помощью дипфейки.

Специалисты OpenAI обучили нейросеть обусловленности текстового описания и изображения на 3,5 миллиардах параметров.

Работает GLIDE так: после введения текстового описания нейросеть ищет существующее изображение, а затем редактирует его. Правки соответствуют стилю и освещению окружающего контента, поэтому результат выглядит как плоды редактирования некоего автоматизированного Photoshop.

Нейросеть от Open Ai редактирует изображения по текстовому описанию — © изображение с сайта zmescience.com

В обзоре сообщается, что пока GLIDE не идеален. Например, некоторые запросы, описывающие весьма необычные объекты или сценарии, например описание «автомобиля с треугольными колесами», не дают изображений с удовлетворительными результатами.

Контекст

Весной этого года стало известно, что нейросеть научили создавать поразительно правдоподобные изображения несуществующих котов. Изображения публикуются на сайте This Cat Does Not Exist.