Нейросети Сбера прокачали навыки создания и редактирования изображений

05/06/2025

17:19

Нейросети Сбера прокачали навыки создания и редактирования изображений

Новая версия Kandinsky позволит создавать ещё более качественные изображения, а функциональный AI-редактор в GigaChat — доводить любую картинку до совершенства

Сбер представляет новую модель генерации изображений по тексту Kandinsky 4.1 Image — теперь она создаёт ещё более качественные и детализированные изображения, при этом лучше следует текстовым инструкциям пользователей.

Для нейрохудожников появился AI-редактор MALVINA (Multimodal Artificial Language VIsion Neural Assistant), который позволяет редактировать изображение, следуя текстовым инструкциям. Удалить лишние объекты или текст с картинки, сменить цвет волос или возраст человека на изображении, отреставрировать и раскрасить старое фото, заменить фон, сменить лето на зиму — MALVINA поможет воплотить любую креативную идею нейрохудожника, открывая новые горизонты сотворчества человека и генеративного AI.

Причём в отличие от других моделей, предназначенных для редактирования фото, MALVINA старается сохранять геометрию исходного изображения: изменения затрагивают только релевантные части картинки. Таким образом, даже при внесении серьёзных изменений в сцену будут сохранены черты лица людей или вид объектов, не затрагиваемых в процессе редактирования.

Запуск новых моделей значительно расширяет возможности генеративной системы GigaChat от Сбера в области создания и редактирования визуального контента.

Kandinsky 4.1 Image: фантазируй, создавай!

В основе новой версии модели генерации изображений Kandinsky лежит обновлённая архитектура — теперь это диффузионный трансформер (DiT), который позволяет использовать лучшие практики в области обучения больших трансформерных моделей. Технология обеспечивает возможность эффективного масштабирования, что по факту означает улучшение общего качества и скорости работы флагманской модели.

Помимо обучения на огромном датасете пар «изображение — текстовое описание» модель Kandinsky 4.1 Image была дополнительно дообучена на тщательно отобранных вручную изображениях, сбалансированных по 9 метакатегориям (люди, техника, природа и другие). Отбором этих качественных данных занималась команда, состоящая более чем из 100 специалистов — фотографов, художников, дизайнеров, которые не только имеют профессиональное художественное образование, но и успешно прошли тесты на углублённое понимание эстетических и визуальных аспектов фотографии.

В результате такого дообучения значительно выросла эстетичность и корректность генерируемых изображений во всех доменах. Также повысилось качество генерации текстур и сложных объектов, например разного рода техники. Kandinsky 4.1 Image точнее следует сложным текстовым инструкциям — например, понимает «пространственные» запросы типа «справа/слева» и «выше/ниже». Если попросить модель нарисовать «мужчину в белой кепке и полосатом пиджаке, сидящего на зелёном стуле справа от высокой берёзы, в стиле Ван Гога», — нейросеть учтёт все детали.

Модель понимает стили известных художников — Айвазовского, Босха, Кранаха, Кандинского и других. Кроме того, пользователь может создавать изображения в произвольных художественных стилях от импрессионизма до поп-арта или же генерировать изображения, например, в стиле известной анимационной Studio Ghibli.

Kandinsky 4.1 Image лучше работает с русским культурным кодом: модель качественно генерирует матрёшек, богатырей, самовары, знает героев русских народных сказок и фильмов, может изобразить различные блюда национальной кухни. Ещё лучше модели стали удаваться изображения в духе русской народной росписи, например гжели и хохломы, — теперь пользователи могут экспериментировать и с такого рода стилями.

AI, MALVINA!

Интеграция телеграм-бота GigaChat с AI-редактором MALVINA открыла любому пользователю возможность редактировать любые изображения простыми командами. За пару кликов на картинке можно изменить фон («сделай горы вместо неба»), цвет («сделай дракона зелёным») или внешность («добавь очки», «перекрась волосы в рыжий»). Кроме того, можно убирать и добавлять объекты («замени черешню на конфеты») и корректировать дефекты («удали царапины»).

Модель не просто поддерживает работу с исходными файлами изображений — при их изменении она старается сохранить все важные визуальные характеристики (фигуры, лица, фон), включая мельчайшие детали и текстуры оригинального кадра.

Нейросеть была обучена на огромном массиве данных. На этапе предварительного обучения исследователи обработали более 10 млн примеров, а для этапа дообучения (SFT-фаза) применили свыше 1,5 млн разнообразных изображений — как реальных фотографий с ручной обработкой, так и синтетических данных, сгенерированных специальными моделями.

Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка:

«Новый редактор изображений в GigaChat — это простой и удобный интеллектуальный помощник в реализации любых креативных задумок. Он работает с пиксельной точностью, сохраняя максимум исходных деталей, но при этом позволяет легко менять фон, объекты и даже стиль фото. Теперь пользователям можно не тратить часы в графических редакторах — достаточно освоить нескольких текстовых команд. Мы специально обучали обновлённую модель Kandinsky на разнообразных и при этом детально выверенных и размеченных данных, чтобы нейросеть могла работать с различными сценами: от портретов до пейзажей. Интеграция с GigaChat превращает нашу языковую модель в универсальный инструмент для творчества и работы, который может освоить любой желающий».

Протестировать обновлённые нейросети Сбера можно в телеграм-ботах GigaChat и Kandinsky, а также в VK-боте Kandinsky.

Валерия Ларкина