Генерация видео с помощью ИИ

Обновлено: 17.02.2024
Технологии машинного обучения позволяют автоматически генерировать видео по описанию. Генерация видео может применяться для бизнеса в следующих приложениях:
- маркетинг в Youtube и социальных сетях
- корпоративные новости
- обучение сотрудников

Примеры использования генерации видео для бизнеса с помощью искусственного интеллекта приведены ниже.

Пользователи, которые искали Генерация видео, потом также интересовались следующими продуктами:

См. также: Топ 10: ИИ ассистенты

2024. OpenAI выпустил нейросеть Sora, которая превращает текст в реалистичные видео



OpenAI представила новую генаративную нейросеть под названием Sora, генерирующую реалистичные видео на основе текстового описания. Sora может создавать ролики продолжительностью до минуты, с высоким качеством изображения и четким соблюдением запроса пользователя. Она способна создавать сложные сцены с несколькими персонажами, динамичным поведением и детальной проработкой объектов и фона. Модель умеет понимать подсказки и знает, как ведут себя разные объекты в физическом мире. Sora доступна только для ограниченного количества пользователей, в частности, из-за опасений безопасности. Доступ имеют специалистов по исследованию уязвимостей для оценки потенциальных проблем и рисков.


2024. Google запустила нейросеть Lumiere для создания видео на основе текста


Google запустила открытую нейросеть для создания видео на основе текста. Сервис получил название Lumiere. По словам разработчиков, в отличие от конкурирующих проектов Lumiere создает видео от начала до конца в рамках одного процесса. Другие похожие сервисы сначала генерируют ключевые части кадров, после чего увеличивают их разрешение. Lumiere работает в нескольких режимах, например, производит преобразование текста в видео, конвертирует статические изображения в динамические, создаёт видеоролики в заданном стиле на основе образца, позволяет редактировать существующее видео по письменным подсказкам, анимирует определенные области статического изображения или редактирует видео фрагментарно — например, может изменить предмет гардероба на человеке.


2023. Stable Diffusion представила ИИ-сервис для создания видео по картинке или тексту


Предварительная версия модели Stable Video Diffusion с генеративным искусственным интеллектом доступна на GitHub. Stable Video Diffusion включает две модели: первая по одному изображению размером 576x1024 пикселей может сгенерировать 14 кадров, вторая — 25 кадров. Из них можно сделать видео с частотой кадров от трёх до 30 в секунду. Безопасность и качество нейросетей доработают на основе обратной связи от пользователей. Использовать модели в коммерческих целях пока запрещено — они доступны только для исследований. Можно также записаться в список ожидания для тестирования онлайн-сервиса, который генерирует видео по текстовому описанию.


2023. Представлена нейросеть Gen-2, которая создает видеоклипы по текстовому запросу пользователя


Компания Runway, которая участвовала в создании популярного генератора изображений Stable Diffusion, представила новую нейросеть Gen-2, которая предлагает создавать видео по текстовому запросу пользователя. Нейросеть на данный момент способна преобразовать текстовое описание в трехсекундный видеоклип, открывая широчайшие возможностей для создателей видеоконтента. Gen-2 не будет с самого начала открыта для широкого доступа из соображений безопасности. Вместо этого пользователи могут получить доступ к революционной технологии искусственного интеллекта через Discord, присоединившись к списку ожидания на сайте Runway.


2022. Google представил нейросеть для генерации видео по тексту Imagen Video



Буквально через несколько дней, после того, как Meta представила свою нейросеть для генерации видео Make-A-Video, Гугл объявил о разработке собственной аналогичной системы искусственного интеллекта Imagen Video, способной по языковому описанию генерировать видео с разрешением 1280×768 пикселей и частотой 24 кадра в секунду. Инструмент базируется на алгоритме Imagen, являющемся аналогом DALL-E 2 и Stable Diffusion. Генератор картинок использует большую предобученную языковую нейросеть и каскадную диффузную модель, и сочетает в себе «глубокий уровень понимания слов с беспрецедентной степенью фотореализма». Как поясняют исследователи Google, Imagen Video берет текстовое описание и создает 16-кадровый ролик с разрешением 24×48 пикселей и частотой 3 FPS. Затем система масштабирует и «предсказывает» дополнительные изображения.


2022. Meta представила нейросеть, которая по текстовым описаниям генерирует видео



Meta представила нейросеть Make-A-Video, которая по текстовым описаниям генерирует короткие ролики. Она работает на манер популярных нейросетей вроде DALL-E 2 и Midjourney. Нейросеть создаёт ролики без звука и не дольше пяти секунд, однако уже сейчас она может распознавать самые разные запросы. Нейросети пока нет даже в закрытом доступе, а все готовые ролики журналистам предоставила сама Meta. Поэтому пока до конца неясно, насколько на самом деле Make-A-Video хорошо понимает предложения и создаёт на их основе ролики. Пользователи могут подписаться на обновления.


2022. Нейросети Apple достаточно видео длиной 10 секунд, чтобы сделать реалистичный дипфейк



Компания Apple разработала нейронную сеть NeuMan, которая обучается на коротких видео и может генерировать «дипфейк»-видео. Для обучения нейросети достаточно видеоролика длиной 10 секунд, снятого движущейся камерой. Программа извлекает из видео изображение человека и окружающей среды. После этого NeuMan может синтезировать ролики, на которых тот же персонаж будет выполнять разные действия. Например, танцевать, кувыркаться или подпрыгивать. У нового видео меньшая резкость, но в целом они похожи на реальную съемку плохого качества. Основное назначение программы, как указывают разработчики, — это приложения для дополненной реальности. Они также отмечают, что для обучения нейросети используется две модели NeRF (нейрорадиального излучения): первая из них изучает человека, а вторая — фон. С помощью этих моделей нейросеть изучает грубую геометрию человека и сцены. А потом может воссоздать ее в новых формах.


2020. Сервис Synthesia создает видеообращения из произвольного текста



Онлайн платформа Synthesia позволяет преобразовать любой текст в видео, где его начитывает виртуальный персонаж. Чтобы воспользоваться новой функцией, введите свой текстовый сценарий и нажмите на кнопку «Генерировать». Видео будет готово через несколько минут, при стандартном объеме это займет 15 минут. Новая платформа доступна на 34 языках, в частности на русском. При стандартной генерации ваш текст читает актриса Анна, помимо нее можно выбрать из еще десяти персонажей. Создатели предлагают использовать новый сервис для организации рабочих презентаций, отправки видео-сообщений и других целей.