Разработчики компании Meta*, в частности Марк Цукерберг, создали новую нейросеть Make-A-Video, которая умеет генерировать видео из текстового описания.
Об этом сообщили в издании Mashable.
Сейчас Make-A-Video может генерировать видео не более 5 секунд с низким качеством и без звука, однако это все равно большой шаг вперед на фоне всего существовавшего до.
Читайте также: Нейросеть показала будущее: ядерный взрыв в Москве и футуристический Киев
"Сгенерировать видео гораздо труднее, чем фотографии, потому что помимо правильного создания каждого пикселя, система также должна предугадать, как они будут меняться со временем. Make-A-Video решает эту проблему, добавляя уровень неконтролируемого обучения, позволяющий системе понимать движение в физическом мире и применять его к традиционному генерированию текста в изображение", - написал Марк Цукерберг.
Эта система работает следующим образом: Make-A-Video анализирует текстовый запрос и генерирует 16 кадров видео с разрешением 64 на 64 пикселя каждый. Затем их увеличивают с помощью другой системы – и готово. Как утверждают разработчики, нейросеть обучали делать изображения и двигать их на миллионах видеороликов, в частности, стоковых.
"Все эти видео были сгенерированы системой искусственного интеллекта, созданной нашей командой Meta. Мы называем это Make-A-Video. Вы даете ему текстовое описание, и он создает для вас видео. Мы дали ему такие описания: "плюшевый мишка рисует автопортрет", "младенец-ленивец с вязаной шапочкой пытается понять ноутбук", "земляющийся на Марс космический корабль" и "катающийся на волне в океане робот", - добавил описание к видео Цукерберг.
Ранее "Апостроф" сообщал, что компания Цукерберга показала перчатки виртуальной реальности.