Генерация изображений с помощью ИИ

Обновлено: 16.04.2024
Технологии машинного обучения позволяют автоматически генерировать изображения по описанию. Генерация изображений может применяться для бизнеса в следующих приложениях:
- маркетинг в социальных сетях
- поисковая оптимизация сайтов
- дизайн продукции

Примеры использования генерации картинок для бизнеса с помощью искусственного интеллекта приведены ниже.

Пользователи, которые искали Генерация изображений, потом также интересовались следующими продуктами:

См. также: Топ 10: ИИ ассистенты

2024. Adobe добавил в Premiere Pro ИИ-функцию удаления объектов на видео


Adobe представил новую версию видеоредактора Premiere Pro с генеративным искусственным интеллектом для редактирования видео. Новые функции могут удалять и добавлять объекты в видео. Также можно размывать логотипы и номера машин. Для этого надо нажать на иконку с магической палочкой, выбрать нужную функцию, а затем выделить область на видео, которую необходимо, например, удалить. Кроме того, видеоредактор сможет сам дорисовывать недостающие кадры в начале или конце ролика.


2024. В DALL-E появилась возможность редактирования изображений



Генератор изображений DALL-E, доступный в платной версии ChatGPT (за $20/мес) получил возможность редактирования результатов генерации. Интерфейс редактора DALL·E позволяет редактировать изображения, выбирая область изображения для редактирования и описывая желаемые изменения в чате. Можно попросить убрать какой-то объект или заменить его на другой. Вы также можете объяснить, что нужно исправить, не используя инструмент выбора. Вы также можете отменить и вернуть выделение с помощью кнопок «Undo» и «Redo» над изображением или выбрать «Очистить выделение», чтобы начать все заново.


2023. Meta запустила собственный ИИ-генератор изображений - Imagine with Meta



Компания Meta запустила сервис Imagine with Meta – собственный генератор изображений на основе искусственного интеллекта. По аналогии с DALL-E и Midjourney, Imagine with Meta генерирует изображения на основе введенных пользователем текстовых данных. Сервис работает на основе генеративной модели Emu, которую компания представила в ноябре этого года. Сервис бесплатный, но сейчас работает только в США. Позже Meta планирует расширить географию. В течение следующих двух недель на сгенерированные в Imagine with Meta изображения будут добавляться невидимые водяные знаки – для обнаружения ИИ.


2023. ИИ-генератор изображений DALL-E 3 появился в Bing



Пользователям Bing стала доступна DALL-E 3 от OpenAI — новейшая модель для преобразования текста в изображение. Это последняя и наиболее продвинутая модель от OpenAI для преобразования текста в изображение. Теперь она доступна всем в Bing Chat и на Bing.com/create бесплатно, что довольно необычно: даже пользователи ChatGPT еще ждут доступа к модели, который получат только обладатели платной подписки. Обычно генерацию изображений используют, чтобы получить контент для соцсетей, иллюстрации для разных текстов, обои для компьютера и т. д. DALL-E 3 расширит сферу их применения: модель создаёт максимально реалистичные картинки, логически соответствующие запросу. Ей под силу даже анатомически правильное изображение рук, с которым обычно не справляются другие ИИ. Однако сейчас протестировать ее возможности трудно: новинка вызвала ажиотаж среди пользователей, а сервера перегружены запросами.


2023. Сервис Getty Images запустил свой ИИ генератор изображений



Getty Images, один из крупнейших банков стоковых изображений, запустил генеративный художественный инструмент на базе искусственного интеллекта, который рекламируется как более «коммерчески безопасный», чем другие конкурирующие решения на рынке. Инструмент, названный Getty Images Generative AI и основан на генеративной модели, предоставленной Nvidia, которую обучили на обширной библиотеке Getty (около 477 миллионов изображений). Подобно популярным платформам преобразования текста в изображение, таким как DALL-E 3 и Midjourney, инструмент Getty визуализирует изображения на основе текстовых описаний изображений или подсказок — например, «фото песчаного тропического острова, наполненного пальмами». Пользователи, создающие изображения с помощью этого инструмента, получат стандартную бесплатную лицензию Getty, которая включает в себя возмещение убытков — то есть защиту от исков об авторских правах — и право на «бессрочное неисключительное» использование во всех средствах массовой информации.


2023. OpenAI представила графическую нейросеть DALLE 3 с интеграцией ChatGPT



Компания OpenAI представила новую версию своей нейронной сети для создания изображений - DALLE 3. Основной новинкой DALLE 3 является её интеграция с ChatGPT, ещё одним продуктом от OpenAI, который специализируется на обработке текста. Теперь пользователи могут просто описать желаемое изображение, и ChatGPT создаст оптимальный запрос для DALLE 3. Если результат не удовлетворяет, чат-бот поможет адаптировать запрос для улучшения результатов. Команда также придала большое значение соблюдению авторских прав. Теперь нейронная сеть не будет создавать изображения, имитирующие стиль современных художников, чтобы избежать нарушения авторских прав. Однако стилизация в стиле классических художников, таких как Ван Гог или Мунк, все еще остается доступной.


2023. В Midjourney добавили пост-доработку элементов изображения


После очередного обновления нейросети для генерации изображений Midjourney появился инструмент Inpainting для создания изображений с индивидуальным стилем. Теперь можно удалять ненужные объекты, добавлять новые и создавать осмысленные надписи, а не каракули. Благодаря новому инструменту пользователи могут изменять любую часть сгенерированного изображения по своему усмотрению. До Inpainting они часто сталкивались с трудностями, пытаясь исправить мелкие детали или внести небольшие коррективы в изображения. Эти препятствия часто заставляли повторно генерировать картинку или прибегать к длительному генеративному циклу в попытке достичь желаемых результатов. Но теперь все это в прошлом.


2023. NVIDIA представила нейросеть для генерации изображений Perfusion



Компания NVIDIA представила собственную альтернативу DALL-E 2 и Midjourney - модель Perfusion. Основная фишка Perfusion заключается в его новой технике Key-Locking («блокировка ключей»). Связывая определённые концепции с другими концепциями во время создания изображений, Perfusion может создавать больше версий начальной концепции, сохраняя при этом её суть. Это позволяет пользователям персонализировать изображения с помощью определённых объектов, например, таким как «кот», сохраняя при этом уникальные характеристики, которые определяют конкретного «кота». Блокировка ключей смягчает проблему переобучения, из-за чего модели сложно создавать новые версии идеи, потому что она тесно связана с изображениями, на которых она изначально обучалась. Perfusion корректирует математические преобразования, превращающие слова в картинки. Key-Locking позволяет модели связывать конкретные запросы пользователей с более широкой категорией или «надкатегорией». Например, запрос на создание кота побудил бы модель сопоставить термин «кот» с более широкой категорией «кошачий». После этого выравнивания модель обрабатывает дополнительные сведения, предоставленные в текстовом запросе пользователя.


2023. Microsoft добавила генерацию изображений в чат-бот Bing



Как известно, Microsoft стала главным бенефициаром тектовой нейросети ChatGPT, инвестировав $10 млрд в компанию-разработчика Open AI. Но кроме ChatGPT, в Open AI разработали еще одну нейросеть - DALL·E, которая может генерировать изображения по текстовому описанию. Она ничем не хуже нашумевшей сетки Midjourney, а теперь доступна прямо в браузере Bing (в творческом чате) или в сервисе Bing Image Creator. В отличии от Midjourney, в бесплатной версии картинки генерируются только для вас, а не в публичном чате. Сервис генерит картинки в высоком разрешении 1024х1024 и работает довольно быстро. Пока поддерживает промпты только на английском языке.


2023. Midjourney - ИИ для генерации изображений



Midjourney – это генеративная нейросеть, которая может создавать изображения на основе текстового описания, предоставленного пользователем. Такие изображения можно использовать в блогах, соцсетях, СМИ и даже в коммерческих целях (правда, сервис оставляет за собой авторское право на сгенерированные вами изображения). Midjourney доступен пока только через бота Discord. Пользователи могут генерировать изображения через прямое общение с ботом на официальном сервере Midjourney или путем приглашения бота на сторонний сервер. Конечно, пока эта нейросеть не может заменить человеческого дизайнера, но с простыми задачами, не требующими высокой точности и соответствия она справляется легко.


2022. OpenAI представила нейросеть Point-E, которая создает 3D-изображения по текстовому описанию


Компания OpenAI объявила о создание системы машинного обучения Point-E, которая может создавать 3D-изображения на основе пользовательского текста. Point-E вначале генерирует обычное изображение по текстовому запросу пользователя, а после преобразует его в трехмерную форму. В итоге получается 3D-модель, состоящая из набора точек. Хотя у такой модели низкая детализация, однако ее можно использовать в разработке игр или создании анимации.


2022. Midjourney - нейросеть генерирующая картинки по текстовому описанию



Проект Midjourney разработал нейросеть, которая умеет распознавать печатный текст и преобразовывать его в картинки. Для этого необходимо на английском языке описать сюжет, направить его на обработку сетке и дождаться результата. После полученный результат можно немного модернизировать, увеличить его качество и скачать. Наличие такого инструмента в будущем очень сильно упростит работу дизайнера, решив проблему отсутствия контента на стоках, длительный поиск необходимых материалов. Сейчас сетка находится на этапе открытого бета-тестирования.


2022. Stable Diffusion - open-source альтернатива DALL·E 2



Компания Stability.ai объявила о публичном релизе модели графической нейросети Stable Diffusion. В отличие от сравнимых с ней по качеству DALL·E 2 и Midjourney, нейросеть Stable Diffusion имеет открытый исходный код. Поэтому любой желающий может бесплатно создавать на её основе приложения для решения конкретных задач по преобразованию текста в изображение. Кроме того, в отличие от сопоставимых по открытости кода DALL·E mini (Craiyon) и Disco Diffusion, Stable Diffusion позволяет создавать фотореалистичные и эстетичные произведения искусства, не уступающие по качеству моделям OpenAI и Google. Stable Diffusion воплощает всё лучшее, что есть в нейросетях мира искусства: это, возможно, лучшая из существующих графических нейросетей с открытым исходным кодом. Она пока не имеет аналогов, и её, без сомнения, ждёт большое будущее.


2022. Нейросеть для генерации картинок Stable Diffusion вышла в открытый доступ



Команда разработчиков Stability AI объявила о завершении этапа закрытого бета-тестирования их нейросети для генерации изображений Stable Diffusion. Теперь для всех желающих открыт свободный доступ к генерации изображений. Исходный код для запуска нейросети также находится в открытом доступе. Правда, для запуска Stable Diffusion на своем компьютере понадобится видеокарта NVIDIA с 6-7 Гб видеопамяти на борту. Stable Diffusion является результатом сотрудничества между исследователями Stability AI, RunwayML, LMU Munich, EleutherAI и LAION. Нейросеть позволяет генерировать изображение по описанию и является прямым конкурентом давно известных DALL-E 2 и Midjourney.


2022. Google разработала улучшенный аналог нейросети DALL-E для генерации изображений



В 2021 году OpenAI представила нейросеть DALL-E, которая генерирует изображения по текстовому описанию, сформулированному простым языком. В DALL-E 2, представленной в начале апреля, исследователи модифицировали архитектуру модели и добились уже довольно качественной генерации в том числе и фотореалистичных изображений. Спустя полтора месяца исследователи из Google представили свою генеративную нейросетевую модель Imagen, которая архитектурно похожа на DALL-E 2, но все же имеет некоторые отличия и добивается лучших результатов. Imagen обучалась на собственных датасетах Google, в которых было суммарно 460 миллионов пар «изображение-описание», а также на публично доступном датасете Laion с 400 миллионами пар. В результате разработчикам удалось создать модель с высоким качеством генерации изображений разных типов.


2022. OpenAI доработала нейросеть DALL-E: теперь она генерирует картинки по текстовому описанию



OpenAI начала тестировать DALL-E 2 — обновлённую версию нейросети, впервые представленную в январе 2021-го. Программа теперь генерирует до четырёх раз более качественные изображения, чем предыдущая версия, опираясь лишь на описание на английском языке. На фото слева показаны возможности первой версии, а справа — на что способна обновлённая. Нейросеть научилась добавлять на изображения новые объекты и редактировать фотографии. DALL-E 2 может, например, заменить на изображении собаку на кота, или добавить надувного фламинго в интерьер. На примерах ниже слева находится оригинал, а справа — изображение после обработки нейросетью.


2021. Нейросеть от NVIDIA создает картинку по описанию. Как это выглядит


Американский производитель графических процессоров NVIDIA представил нейросеть GauGAN2, которая создает картинки по описанию. Достаточно предложения из трех-четырех слов. Пользователь может описать, что хочет увидеть на картинке, например «солнце в лесу» или «каменный пляж на закате». Нейросеть моментально реагирует на изменение запроса, поэтому его можно редактировать, пока не получиться нужный результат. Еще GauGAN2 позволяет создать карту сегментации. В ней можно начертить, как объекты будут располагаться на картинке.