ИИ модели для генерации видео
Обновлено: 05.07.2024 |
Технологии машинного обучения позволяют автоматически генерировать видео по описанию. Генерация видео может применяться для бизнеса в следующих приложениях:
- маркетинг в Youtube и социальных сетях
- корпоративные новости
- обучение сотрудников
Примеры использования генерации видео для бизнеса с помощью искусственного интеллекта приведены ниже.
Пользователи, которые искали Генерация видео, потом также интересовались следующими продуктами:
См. также: Топ 10: ИИ ассистенты
- маркетинг в Youtube и социальных сетях
- корпоративные новости
- обучение сотрудников
Примеры использования генерации видео для бизнеса с помощью искусственного интеллекта приведены ниже.
Пользователи, которые искали Генерация видео, потом также интересовались следующими продуктами:
См. также: Топ 10: ИИ ассистенты
2024. Google добавил озвучку в свой ИИ-генератор видео Veo
Месяц назад Google Deepmind показал новую нейросеть для генерации видео Veo. Она может создавать короткие видео с разрешением 1080p в различных визуальных и кинематографических стилях на базе текстового описания и (опционально) изображений и видео-промптов. А теперь она еще и генерирует звуковую дорожку к видео. При чем, речь не просто о подборе саундтрека, подходящего по настроению к видео, а об осмысленном звуковом сопровождении. Например, если в кадре идет человек, будут слышны звуки его шагов, если пронеслась машина - (удаляющийся) шум мотора. Более того, модель может генерить речь персонажей (пока по текстовому описанию).
2024. OpenAI выпустил нейросеть Sora, которая превращает текст в реалистичные видео
![](https://www.livebusiness.org/pics/news/small/17/1708193328.jpg)
OpenAI представила новую генаративную нейросеть под названием Sora, генерирующую реалистичные видео на основе текстового описания. Sora может создавать ролики продолжительностью до минуты, с высоким качеством изображения и четким соблюдением запроса пользователя. Она способна создавать сложные сцены с несколькими персонажами, динамичным поведением и детальной проработкой объектов и фона. Модель умеет понимать подсказки и знает, как ведут себя разные объекты в физическом мире. Sora доступна только для ограниченного количества пользователей, в частности, из-за опасений безопасности. Доступ имеют специалистов по исследованию уязвимостей для оценки потенциальных проблем и рисков.
2024. Google запустила нейросеть Lumiere для создания видео на основе текста
Google запустила открытую нейросеть для создания видео на основе текста. Сервис получил название Lumiere. По словам разработчиков, в отличие от конкурирующих проектов Lumiere создает видео от начала до конца в рамках одного процесса. Другие похожие сервисы сначала генерируют ключевые части кадров, после чего увеличивают их разрешение. Lumiere работает в нескольких режимах, например, производит преобразование текста в видео, конвертирует статические изображения в динамические, создаёт видеоролики в заданном стиле на основе образца, позволяет редактировать существующее видео по письменным подсказкам, анимирует определенные области статического изображения или редактирует видео фрагментарно — например, может изменить предмет гардероба на человеке.
2023. Stable Diffusion представила ИИ-сервис для создания видео по картинке или тексту
Предварительная версия модели Stable Video Diffusion с генеративным искусственным интеллектом доступна на GitHub. Stable Video Diffusion включает две модели: первая по одному изображению размером 576x1024 пикселей может сгенерировать 14 кадров, вторая — 25 кадров. Из них можно сделать видео с частотой кадров от трёх до 30 в секунду. Безопасность и качество нейросетей доработают на основе обратной связи от пользователей. Использовать модели в коммерческих целях пока запрещено — они доступны только для исследований. Можно также записаться в список ожидания для тестирования онлайн-сервиса, который генерирует видео по текстовому описанию.
2023. Представлена нейросеть Gen-2, которая создает видеоклипы по текстовому запросу пользователя
Компания Runway, которая участвовала в создании популярного генератора изображений Stable Diffusion, представила новую нейросеть Gen-2, которая предлагает создавать видео по текстовому запросу пользователя. Нейросеть на данный момент способна преобразовать текстовое описание в трехсекундный видеоклип, открывая широчайшие возможностей для создателей видеоконтента. Gen-2 не будет с самого начала открыта для широкого доступа из соображений безопасности. Вместо этого пользователи могут получить доступ к революционной технологии искусственного интеллекта через Discord, присоединившись к списку ожидания на сайте Runway.
2022. Google представил нейросеть для генерации видео по тексту Imagen Video
![](https://www.livebusiness.org/pics/news/small/16/1665074739.jpg)
Буквально через несколько дней, после того, как Meta представила свою нейросеть для генерации видео Make-A-Video, Гугл объявил о разработке собственной аналогичной системы искусственного интеллекта Imagen Video, способной по языковому описанию генерировать видео с разрешением 1280×768 пикселей и частотой 24 кадра в секунду. Инструмент базируется на алгоритме Imagen, являющемся аналогом DALL-E 2 и Stable Diffusion. Генератор картинок использует большую предобученную языковую нейросеть и каскадную диффузную модель, и сочетает в себе «глубокий уровень понимания слов с беспрецедентной степенью фотореализма». Как поясняют исследователи Google, Imagen Video берет текстовое описание и создает 16-кадровый ролик с разрешением 24×48 пикселей и частотой 3 FPS. Затем система масштабирует и «предсказывает» дополнительные изображения.
2022. Meta представила нейросеть, которая по текстовым описаниям генерирует видео
![](https://www.livebusiness.org/pics/news/small/16/1664608708.jpg)
Meta представила нейросеть Make-A-Video, которая по текстовым описаниям генерирует короткие ролики. Она работает на манер популярных нейросетей вроде DALL-E 2 и Midjourney. Нейросеть создаёт ролики без звука и не дольше пяти секунд, однако уже сейчас она может распознавать самые разные запросы. Нейросети пока нет даже в закрытом доступе, а все готовые ролики журналистам предоставила сама Meta. Поэтому пока до конца неясно, насколько на самом деле Make-A-Video хорошо понимает предложения и создаёт на их основе ролики. Пользователи могут подписаться на обновления.
2022. Нейросети Apple достаточно видео длиной 10 секунд, чтобы сделать реалистичный дипфейк
![](https://www.livebusiness.org/pics/news/small/16/1661452209.jpg)
Компания Apple разработала нейронную сеть NeuMan, которая обучается на коротких видео и может генерировать «дипфейк»-видео. Для обучения нейросети достаточно видеоролика длиной 10 секунд, снятого движущейся камерой. Программа извлекает из видео изображение человека и окружающей среды. После этого NeuMan может синтезировать ролики, на которых тот же персонаж будет выполнять разные действия. Например, танцевать, кувыркаться или подпрыгивать. У нового видео меньшая резкость, но в целом они похожи на реальную съемку плохого качества. Основное назначение программы, как указывают разработчики, — это приложения для дополненной реальности. Они также отмечают, что для обучения нейросети используется две модели NeRF (нейрорадиального излучения): первая из них изучает человека, а вторая — фон. С помощью этих моделей нейросеть изучает грубую геометрию человека и сцены. А потом может воссоздать ее в новых формах.
2020. Сервис Synthesia создает видеообращения из произвольного текста
![](https://www.livebusiness.org/pics/news/small/16/1601052522.jpg)
Онлайн платформа Synthesia позволяет преобразовать любой текст в видео, где его начитывает виртуальный персонаж. Чтобы воспользоваться новой функцией, введите свой текстовый сценарий и нажмите на кнопку «Генерировать». Видео будет готово через несколько минут, при стандартном объеме это займет 15 минут. Новая платформа доступна на 34 языках, в частности на русском. При стандартной генерации ваш текст читает актриса Анна, помимо нее можно выбрать из еще десяти персонажей. Создатели предлагают использовать новый сервис для организации рабочих презентаций, отправки видео-сообщений и других целей.