Кандинский – нейросеть, созданная Сбером и позволяющая пользователям генерировать изображения по заданному текстовому описанию и в любой момент создавать необходимое количество licence-free-иллюстраций. Разработчики представляли уже несколько версий нейросети, впервые представленное широкой публике 4 апреля 2023 года.
Новая версия может не только создавать картинки по тексту, но и дорисовывать уже имеющиеся, сохраняя заданный в оригинале стиль, объединять несколько изображений в одно, а также работать в формате бесконечных полотен.
Нейросети, умеющие создавать изображения – бурно развивающаяся область применения искусственного интеллекта, новые версии ставших популярными нейросетей выходят 2-4 раза в год, предлагая пользователям все более широкие возможности, лучшее понимание естественных языков и расширение языкового разнообразие. Кандинский понимает 101 язык мира, среди которых, разумеется, русский и английский.
Исследователи из Сбер AI и ученые из Института Искусственного Интеллекта AIRI создали приложение, аналогичное по функциям таким известным ИИ-генераторам изображений как Midjourney и Stable Diffusion, но более приспособленное к запросам российской аудитории.
12 июля появилась новая версия Кандинский 2.2, возможностям которой посвящена эта статья.
История развития проекта
Старт проекту был дан в 1 ноября 2021 года, когда Сбер выложил код и параметры двух моделей ruDALL-E Malevich (XL) и ruDALL-E Kandinsky (XXL).
Первой из них можно было пользоваться абсолютно бесплатно, для чего нужно было только загрузить ее с GitHub. Содержащая 1,3 млрд параметров модель понимала обширный круг понятий и генерировала уникальные и абсолютно новые яркие и красочные изображения на основе краткого текстового описания.
Потребность в уникальных картинках, на которые не распространяются авторские права, есть у блогеров, дизайнеров, контент-менеджеров. Спрос на нейросети-генераторы изображений огромный, что и побудило Сбер создать собственный продукт.
В июне 2022 года появилась первая версия ruDALL-E Kandinsky (XXL), которая основывалась на той же самой архитектуре, но число параметров уже равнялось 12 млрд. Модель была дополнительно обучена на 179 млн. пар «текст-изображение».
На базе представленного в 2019 году самого мощного российского суперкомпьютера Christofari ООО «Облачные технологии» разработало облачную платформу «Сбера» SberCloud. Именно на ее платформе ML Space, в хабе DataHub стали доступны обе новинки.
На первом этапе одна из нейросетей ruDALL-E создавала множество картинок на основе принятого ей текстового описания, затем другая нейросеть выбирала из этого массива самую удачную. Задачей третьей было увеличение выбранного изображения до требуемого размера, при этом качество картинки ни в малой степени не страдало.
23 ноября 2022 г. Сбер представил следующую версию. Презентация нейросети Кандинский 2.0. состоялась на конференции «Artificial Intelligence Journey». Учебная база модели содержала 1 млрд. пар «текст-изображение». Версия получила многоязычность и поддерживала 101 язык, включая языки стран Европы, СНГ, фарси, иврит и монгольский. Текст мог быть распознан даже если в нем использовались слова из разных языков.
Сочность, глубина и реалистичность изображения были достигнуты благодаря диффузионному подходу вместо трансформеров. Стало возможно задать стиль картинки, например, советский мультфильм, ренессанс, новогодний, классицизм и др. Количество стилей равнялось 20. Функция inpainting обеспечивала замену какой-любой части изображения, а outpainting дорисовывала его и добавляла желаемый фон.
4 апреля 2023 года представлена нейросеть Кандинский 2.1, прошедшая дополнительное обучение на 170 млн. пар картинок.
Модель Kandinsky 2.1 содержит 3,3 млрд параметров.
Кандинский 2.2 представлен 12 июля 2023 года. Отличие доученной дополнительно на 1,5 млрд. пар «текст-изображение» версии заключается в возможности создания высококачественных фотоизображений и изменения соотношения сторон.
Архитектура нейросети
Нейросеть Кандинский 2.1 построена на основе мультиязычной языковой модели mT5. Она позволяет общаться с нейросетью на одном из 101 доступных языков. Для оценки качества понимания человека машиной можно использовать сравнения эмбеддингов (векторных числовых кодов, поставленных в соответствие словам естественного языка). В мультиязычных моделях mT5 выдает схожие эмбеддинги для одинаковых слов на разных языках, что позволяет генерировать изображения, наиболее близкие к запросу пользователя.
Диффузионные модели обеспечивают высокое качество генерации и разнообразие образцов. При прямом распространении исходное изображение за несколько итераций искажается добавлением гауссова шума, а при обратном добавленный шум удаляется итеративным способом. В результате повторения добавления и удаления шума на каждом шаге модель обучается оценивать исходное распределение данных.
В нейросети Кандинский 2.1 использовано обучение без учителя на основе архитектуры нейронных сетей, называемой автокодированием или автоэнкодером, в качестве декодера векторных представлений изображений.
В архитектуре латентной диффузии используется вариационный автоэнкодер. Он работает следующим образом:
- Кодер уменьшает размеров изображения, с которым далее работает диффузионная модель.
- Декодер восстанавливает до первоначального размера сгенерированное диффузионной моделью изображение.
При этом применяется метод обратного распространения ошибки, в котором отклик на выходном слое должен быть максимально близок ко входному. Используются два энкодера. XLMR-clip видит картинки и даёт близкие эмбеддинги для разных языков, а mT5-small хорошо понимает сложные тексты.
Как генерировать картинки
Чтобы увидеть вживую все открывающиеся перед вами возможности, можно пойти несколькими путями:
- Набрать Fusion Brain
- Находясь на официальном сайте Сбера, найти кнопку «Начать творить». После ее нажатия вы попадете на сервис Fusion Brain.
- Зайти на сайт ruDALL-e, ввести текстовое описание желаемого изображения, указать его размер и стиль (последнее опционально) и нажать кнопку «Отправить».
- Зайти на страницу ВКонтакте Kandinsky 2.1 generative art и нажать на кнопку «Написать сообщение».
- Запустить Телеграм-бот Kandinsky 2.1, выбрать пункт «Генерация по тексту», ввести текстовый запрос, выбрать стиль из 4 предлагаемых стилей вместо 23 в полной версии нейросети. На генерацию изображения у бота уходит 0,5-1 минуты. пока будет формироваться изображение.
Наиболее продвинутые возможности у сервиса Fusion Brain. Рассмотрим работу с ним подробнее.
Итак, мы оказались на сайте fusionbrain.ai. Придется принять предложение разрешить использование куков, согласиться с пользовательским соглашением и удостоверить, что вы предупреждены о возможном присутствии контента с ограничением по возрасту 18+. Все это можно сделать нажатием одной кнопки «Ясно». Три в одном, удобно, время экономит, уже на вешалке сайт демонстрирует заботу о пользователях.
Теперь можно нажать на кнопку «Открыть редактор» в правом верхнем углу и на открывшейся странице соглашаемся с ответственностью за то, что способы использования и запросы к нейросети не будут нарушать российское законодательство, законы страны использования и этические нормы. Также запрещаются попытки обхода барьеров для создания неприемлемых запросов.
После нажатия на кнопку согласия вы можете наслаждаться возможностями нейросети при решении самых разных практических задач.
Интерфейс FusionBrain минималистичен и интуитивно понятен.
Чтобы получить ваше первое изображение, достаточно ввести текст в поле под областью картинки и нажать кнопку «Создать». Некоторое время придется подождать. Примерно с полминуты, что для сервиса с бесплатным доступом довольно неплохо.
Сгенерированную картинку можно скачать, нажав на соответствующую кнопку в правом верхнем углу и подтвердив нажатием кнопки «Скачать» под картинкой.
На сайте FusionBrain с 12 июля 2023 года используется нейросеть Кандинский 2.2, позволяющая изменять соотношение сторон картинки, теперь на выходе можно получить портретный или альбомный формат, выбрав из набора 16:9, 9:16, 3:2 и 2:3. Этой возможности не было в предыдущей версии Кандинский 2.1. По сравнению с ней увеличено разрешение 768*768 до 1024*1024, что позволяет получать картинки, уже похожие на фото.
В левом нижнем углу экрана найдите список стилей. По умолчанию установлено «Без стиля».
В списке значатся пять художников. Вы можете узнать, как, по мнению нейросети, нарисовали бы предмет вашего запроса Кандинский, Айвазовский, Пикассо, Малевич или Гончарова. Попробуйте, порой получаются сногсшибательные «шедевры» абстрактной живописи.
В список стилей входят не только классицизм, ренессанс, средневековый стиль, но и киберпанк. Можно выбрать картину маслом, детальное фото, рисунок карандашом или цифровую живопись, студийное, портретное или детальное фото, мультфильм, аниме или советский мультфильм. В стили также включен 3-рендеринг, роспись под хохлому и Новый год.
Список стилей в новой версии не изменился, приходится ждать перемен в будущем. Всего 23 – маловато будет, если честно, но пока приходится наслаждаться тем, что есть.
В правом нижнем углу находятся кнопки масштабирования. Можно увидеть, как будет смотреться изображение в миниатюре или приблизить его, чтобы рассмотреть детали.
Если вас не устраивает полученный результат, вы можете изменить запрос или оставить его прежним и нажать кнопку «Создать» повторно. В правом левом углу есть кнопка отмены последнего действия и его повтора. Работа с промптами, как называют запросы – целое искусство, постигаемое во время работы с нейросетью.
Слева вверху расположены кнопки редактирования.
Переместить рамку можно с помощью кнопки со стрелкой. Далее можно менять описание или оставить старое по вашему выбору, при этом после нажатия кнопки «Создать» вы получите новую картинку.
Можно загрузить одну или несколько картинок и создать новую, скомбинировав их. Также после загрузки картинки можно ввести текстовое описание, получая различные «гибриды».
Кнопка «ластик» позволяет стереть любую часть изображения и заменить фоном или новыми деталями, указанными в промпте.
В телеграмм-боте возможностей чуть меньше, стилей всего 4. Зато получение вариации картинки осуществляется легко и просто после выбора пункта «вариации картинки» и загрузки исходного изображения. Также несложно смешать две картинки, картинку и текст.
Применение в практических задачах
Из описания уже понятно, какие огромные возможности предоставляет «Кандинский» пользователям, работающим в самых различных областях. Ландшафтный дизайнер или дизайнер интерьера могут получать эскизы проектов легко и быстро, нейросеть может навести на неожиданное и совершенно уникальное решение, изменить те или иные детали. Дальнейшую работу с полученным изображением можно вести в любом графическом редакторе.
Графическому дизайнеру открываются широкие перспективы в создании всевозможных логотипов, специалисты в области рекламы могут за считанные минуты создать рекламный баннер, владельцы блогов и сайтов дополнят страницы уникальными рисунками, из-за которых не встанет вопрос об авторских правах.
Можно просто редактировать фото, убирая дефекты или лишних людей из снимков, сделанных во время отпуска, создавать коллажи, да и просто развлечься, занимаясь художественным творчеством совместно с машиной.
Преимущества и ограничения
К несомненным плюсам нейросети Кандинский 2.2 относятся:
- Возможность составлять промпты на русском языке или на любом из еще сотни языков на выбор.
- Простой и понятный интерфейс
- Разнообразие стилей
- Высокая детализация сгенерированных изображений
- Возможность бесплатно скачать полученное изображение или поделиться им в соцсетях.
- Доступно редактирование полученного изображения: удаление или изменение деталей, дорисовка новых элементов, устранение дефектов.
- Широкий функционал по работе с готовыми картинками. Можно получать вариации, смешивать одну картинку с другой или с текстовым описанием.
- Разнообразие версий – веб-сервисы, боты в ВК и Телеграм, программы, мобильные приложения.
- В Кандинском 2.2 появился функционал ControlNet, что добавляет возможность вносить локальные изменения на картинке, не меняя всей композиции сцены.
- Возможность генерации стикеров с помощью добавления в конце промпта слова «sticker».
В минусы можно записать некорректность результатов при некоторых запросах, не со всеми темами нейросеть справляется одинаково хорошо. Нейросеть быстро учится, при бесплатном доступе ежедневно создаются миллионы новых изображений, качество и адекватность запросу которых постоянно улучшаются.
Что касается цветовой гаммы, то мнения расходятся. Большинство находят ее более яркой и жизнерадостной, чем у зарубежных аналогов, другие считают ее несколько лубочной.
Примеры изображений, созданных через нейросеть Кандинский
Будущие перспективы и вызовы
Кандинский 2.2 создает картинки удивительно высокого качества, уверенно занимая третье место среди аналогичных нейросетей по большинству сравниваемых показателей. Да, до лидера Midjourney 5.0 все еще далеко, но бесплатность и отсутствие лимита по генерациям привлекает многих российских пользователей, тем более что нет необходимости мудрить с регистрацией, обходя санкционные ограничения.
Далеко не всегда устраивающая генерация будет получена с первого раза, обычно это получается после 4-5 попыток. Порой возникают явные нарушения пропорций, искажаются лица или руки, нередко нейросеть не понимает слишком сложный запрос с большим количеством персонажей и их атрибутов. В целом нужно стремиться создавать запросы максимально простые и не перегруженные деталями.
Кандинский 2.2 уже лучше многих других иностранных нейросетей, включая Lexica и Neural Love. Догонит ли он когда-нибудь Midjourney, сказать трудно, но по сравнению с ним у него есть существенное преимущество – бесплатный доступ безо всякой регистрации. Это увеличивает число генераций в день, а с каждой созданной картинкой нейросеть учится создавать все более качественные изображения все более строго соответствующие запросу.
Пока разработчики продолжают исследования текстовых энкодеров, чтобы научиться понимать всё более сложные текстовые описания, проводят оптимизацию архитектуры U-Net, экспериментируют с разными подходами к файнтюнингу Kandinsky и занимаются оптимизацией инференса. Разработчики нейросети не анонсируют время появления следующей версии, но заявляют, что в ней будут исправлены многие баги и появятся новые полезные пользователям фичи. Надеемся, что обновления дождемся уже этой осенью.
Заключение
Кандинский 2.2 – вполне подходящий инструмент для любого специалиста, работающего с изображениями: блогера, маркетолога, дизайнера, контент-менеджера. С помощью нейросети можно иллюстрировать книги, сделать к тексту блога уникальные картинки в соответствии с содержанием, создавать мультипликационных персонажей, рисовать логотипы и рекламные баннеры и многое-многое другое, зависящее лишь от вашей фантазии и навыка сотворчества с нейросетью.