Генерация изображений с помощью ИИ
Обновлено: 25.09.2023 |
Технологии машинного обучения позволяют автоматически генерировать изображения по описанию. Генерация изображений может применяться для бизнеса в следующих приложениях:
- маркетинг в социальных сетях
- поисковая оптимизация сайтов
- дизайн продукции
Примеры использования генерации картинок для бизнеса с помощью искусственного интеллекта приведены ниже.
См. также: Топ 10: ИИ ассистенты
- маркетинг в социальных сетях
- поисковая оптимизация сайтов
- дизайн продукции
Примеры использования генерации картинок для бизнеса с помощью искусственного интеллекта приведены ниже.
См. также: Топ 10: ИИ ассистенты
2023. Сервис Getty Images запустил свой ИИ генератор изображений

Getty Images, один из крупнейших банков стоковых изображений, запустил генеративный художественный инструмент на базе искусственного интеллекта, который рекламируется как более «коммерчески безопасный», чем другие конкурирующие решения на рынке. Инструмент, названный Getty Images Generative AI и основан на генеративной модели, предоставленной Nvidia, которую обучили на обширной библиотеке Getty (около 477 миллионов изображений). Подобно популярным платформам преобразования текста в изображение, таким как DALL-E 3 и Midjourney, инструмент Getty визуализирует изображения на основе текстовых описаний изображений или подсказок — например, «фото песчаного тропического острова, наполненного пальмами». Пользователи, создающие изображения с помощью этого инструмента, получат стандартную бесплатную лицензию Getty, которая включает в себя возмещение убытков — то есть защиту от исков об авторских правах — и право на «бессрочное неисключительное» использование во всех средствах массовой информации.
2023. OpenAI представила графическую нейросеть DALLE 3 с интеграцией ChatGPT

Компания OpenAI представила новую версию своей нейронной сети для создания изображений - DALLE 3. Основной новинкой DALLE 3 является её интеграция с ChatGPT, ещё одним продуктом от OpenAI, который специализируется на обработке текста. Теперь пользователи могут просто описать желаемое изображение, и ChatGPT создаст оптимальный запрос для DALLE 3. Если результат не удовлетворяет, чат-бот поможет адаптировать запрос для улучшения результатов. Команда также придала большое значение соблюдению авторских прав. Теперь нейронная сеть не будет создавать изображения, имитирующие стиль современных художников, чтобы избежать нарушения авторских прав. Однако стилизация в стиле классических художников, таких как Ван Гог или Мунк, все еще остается доступной.
2023. В Midjourney добавили пост-доработку элементов изображения
После очередного обновления нейросети для генерации изображений Midjourney появился инструмент Inpainting для создания изображений с индивидуальным стилем. Теперь можно удалять ненужные объекты, добавлять новые и создавать осмысленные надписи, а не каракули. Благодаря новому инструменту пользователи могут изменять любую часть сгенерированного изображения по своему усмотрению. До Inpainting они часто сталкивались с трудностями, пытаясь исправить мелкие детали или внести небольшие коррективы в изображения. Эти препятствия часто заставляли повторно генерировать картинку или прибегать к длительному генеративному циклу в попытке достичь желаемых результатов. Но теперь все это в прошлом.
2023. NVIDIA представила нейросеть для генерации изображений Perfusion

Компания NVIDIA представила собственную альтернативу DALL-E 2 и Midjourney - модель Perfusion. Основная фишка Perfusion заключается в его новой технике Key-Locking («блокировка ключей»). Связывая определённые концепции с другими концепциями во время создания изображений, Perfusion может создавать больше версий начальной концепции, сохраняя при этом её суть. Это позволяет пользователям персонализировать изображения с помощью определённых объектов, например, таким как «кот», сохраняя при этом уникальные характеристики, которые определяют конкретного «кота». Блокировка ключей смягчает проблему переобучения, из-за чего модели сложно создавать новые версии идеи, потому что она тесно связана с изображениями, на которых она изначально обучалась. Perfusion корректирует математические преобразования, превращающие слова в картинки. Key-Locking позволяет модели связывать конкретные запросы пользователей с более широкой категорией или «надкатегорией». Например, запрос на создание кота побудил бы модель сопоставить термин «кот» с более широкой категорией «кошачий». После этого выравнивания модель обрабатывает дополнительные сведения, предоставленные в текстовом запросе пользователя.
2023. Microsoft добавила генерацию изображений в чат-бот Bing

Как известно, Microsoft стала главным бенефициаром тектовой нейросети ChatGPT, инвестировав $10 млрд в компанию-разработчика Open AI. Но кроме ChatGPT, в Open AI разработали еще одну нейросеть - DALL·E, которая может генерировать изображения по текстовому описанию. Она ничем не хуже нашумевшей сетки Midjourney, а теперь доступна прямо в браузере Bing (в творческом чате) или в сервисе Bing Image Creator. В отличии от Midjourney, в бесплатной версии картинки генерируются только для вас, а не в публичном чате. Сервис генерит картинки в высоком разрешении 1024х1024 и работает довольно быстро. Пока поддерживает промпты только на английском языке.
2023. Midjourney - ИИ для генерации изображений

Midjourney – это генеративная нейросеть, которая может создавать изображения на основе текстового описания, предоставленного пользователем. Такие изображения можно использовать в блогах, соцсетях, СМИ и даже в коммерческих целях (правда, сервис оставляет за собой авторское право на сгенерированные вами изображения). Midjourney доступен пока только через бота Discord. Пользователи могут генерировать изображения через прямое общение с ботом на официальном сервере Midjourney или путем приглашения бота на сторонний сервер. Конечно, пока эта нейросеть не может заменить человеческого дизайнера, но с простыми задачами, не требующими высокой точности и соответствия она справляется легко.
2022. OpenAI представила нейросеть Point-E, которая создает 3D-изображения по текстовому описанию
Компания OpenAI объявила о создание системы машинного обучения Point-E, которая может создавать 3D-изображения на основе пользовательского текста. Point-E вначале генерирует обычное изображение по текстовому запросу пользователя, а после преобразует его в трехмерную форму. В итоге получается 3D-модель, состоящая из набора точек. Хотя у такой модели низкая детализация, однако ее можно использовать в разработке игр или создании анимации.
2022. Midjourney - нейросеть генерирующая картинки по текстовому описанию

Проект Midjourney разработал нейросеть, которая умеет распознавать печатный текст и преобразовывать его в картинки. Для этого необходимо на английском языке описать сюжет, направить его на обработку сетке и дождаться результата. После полученный результат можно немного модернизировать, увеличить его качество и скачать. Наличие такого инструмента в будущем очень сильно упростит работу дизайнера, решив проблему отсутствия контента на стоках, длительный поиск необходимых материалов. Сейчас сетка находится на этапе открытого бета-тестирования.
2022. Stable Diffusion - open-source альтернатива DALL·E 2

Компания Stability.ai объявила о публичном релизе модели графической нейросети Stable Diffusion. В отличие от сравнимых с ней по качеству DALL·E 2 и Midjourney, нейросеть Stable Diffusion имеет открытый исходный код. Поэтому любой желающий может бесплатно создавать на её основе приложения для решения конкретных задач по преобразованию текста в изображение. Кроме того, в отличие от сопоставимых по открытости кода DALL·E mini (Craiyon) и Disco Diffusion, Stable Diffusion позволяет создавать фотореалистичные и эстетичные произведения искусства, не уступающие по качеству моделям OpenAI и Google. Stable Diffusion воплощает всё лучшее, что есть в нейросетях мира искусства: это, возможно, лучшая из существующих графических нейросетей с открытым исходным кодом. Она пока не имеет аналогов, и её, без сомнения, ждёт большое будущее.
2022. Нейросеть для генерации картинок Stable Diffusion вышла в открытый доступ

Команда разработчиков Stability AI объявила о завершении этапа закрытого бета-тестирования их нейросети для генерации изображений Stable Diffusion. Теперь для всех желающих открыт свободный доступ к генерации изображений. Исходный код для запуска нейросети также находится в открытом доступе. Правда, для запуска Stable Diffusion на своем компьютере понадобится видеокарта NVIDIA с 6-7 Гб видеопамяти на борту. Stable Diffusion является результатом сотрудничества между исследователями Stability AI, RunwayML, LMU Munich, EleutherAI и LAION. Нейросеть позволяет генерировать изображение по описанию и является прямым конкурентом давно известных DALL-E 2 и Midjourney.
2022. Google разработала улучшенный аналог нейросети DALL-E для генерации изображений

В 2021 году OpenAI представила нейросеть DALL-E, которая генерирует изображения по текстовому описанию, сформулированному простым языком. В DALL-E 2, представленной в начале апреля, исследователи модифицировали архитектуру модели и добились уже довольно качественной генерации в том числе и фотореалистичных изображений. Спустя полтора месяца исследователи из Google представили свою генеративную нейросетевую модель Imagen, которая архитектурно похожа на DALL-E 2, но все же имеет некоторые отличия и добивается лучших результатов. Imagen обучалась на собственных датасетах Google, в которых было суммарно 460 миллионов пар «изображение-описание», а также на публично доступном датасете Laion с 400 миллионами пар. В результате разработчикам удалось создать модель с высоким качеством генерации изображений разных типов.
2022. OpenAI доработала нейросеть DALL-E: теперь она генерирует картинки по текстовому описанию

OpenAI начала тестировать DALL-E 2 — обновлённую версию нейросети, впервые представленную в январе 2021-го. Программа теперь генерирует до четырёх раз более качественные изображения, чем предыдущая версия, опираясь лишь на описание на английском языке. На фото слева показаны возможности первой версии, а справа — на что способна обновлённая. Нейросеть научилась добавлять на изображения новые объекты и редактировать фотографии. DALL-E 2 может, например, заменить на изображении собаку на кота, или добавить надувного фламинго в интерьер. На примерах ниже слева находится оригинал, а справа — изображение после обработки нейросетью.
2021. Нейросеть от NVIDIA создает картинку по описанию. Как это выглядит
Американский производитель графических процессоров NVIDIA представил нейросеть GauGAN2, которая создает картинки по описанию. Достаточно предложения из трех-четырех слов. Пользователь может описать, что хочет увидеть на картинке, например «солнце в лесу» или «каменный пляж на закате». Нейросеть моментально реагирует на изменение запроса, поэтому его можно редактировать, пока не получиться нужный результат. Еще GauGAN2 позволяет создать карту сегментации. В ней можно начертить, как объекты будут располагаться на картинке.