Два года назад Сбер впервые презентовал широкой аудитории собственную нейросеть Kandinsky для генерации изображений по текстовому описанию на русском языке. Её разработала объединённая команда исследователей и инженеров из Sber AI и SberDevices при поддержке учёных из Института AIRI.
Kandinsky стал продолжением нейросети ruDALL-E, представленной 2 ноября 2021 года. Тогда это была одна из первых в мире моделей генерации изображений по тексту. Сбер дообучил эту модель на 200 млн качественных изображений, снабжённых текстовыми русскоязычными описаниями. Улучшенную нейросеть назвали в честь известного русского художника-абстракциониста и теоретика изобразительного искусства Василия Кандинского.
На текущий момент линейка Kandinsky представлена тремя семействами моделей генерации изображений по тексту и отражает прогресс по созданию и обучению такого рода моделей в мире: это авторегрессионные трансформерные модели ruDALL-E и Kandinsky 1.0, диффузионные модели с image prior-блоком Kandinsky 2.0, 2.1 и 2.2 и диффузионные модели Kandinsky 3.0 и 3.1. Также нами было разработано семейство моделей Kandinsky Video (1.0 и 1.1) для генерации полноценных видео по тексту.
При создании моделей Kandinsky были реализованы и исследованы новые подходы, улучшающие качество генерируемых изображений и видео, в том числе с учётом культурно-исторического контекста. Так, модель отлично понимает отечественный культурный код — например, может создавать изображения в стиле гжели или хохломы. Помимо генерации изображений по тексту модели Kandinsky обладает возможностями редактирования изображений (дорисовывание, исправление) и инструктивной генерации изображений (смешивание, стилизация, замена объектов).
Модель Kandinsky 2.1 стала одним из самых быстрорастущих сервисов в мире. Об этом говорит тот факт, всего за четыре дня после её релиза 4 апреля 2023 года аудитория нейросети превысила 1 млн уникальных пользователей. Кроме того, в прошлом году модель Kandinsky 2.2 заняла первое место по темпу роста и стала второй после Stable Diffusion по популярности среди разработчиков по версии AI-ресурса Hugging Face, где собраны лучшие open source решения. Также Kandinsky стала одной из самых упоминаемых в социальных медиа российских нейросетей в 2023−2024 годах согласно исследованию Brand Analytics.
Как отметил старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев, за два года работы нашей нейросети Kandinsky команда проекта проделала колоссальную работу. Теперь это полноценный многофункциональный сервис, который даёт человеку возможность раскрыть свой творческий потенциал: стать художником или режиссёром и реализовать задуманное.
«За два года нам удалось сократить время одной генерации почти в 10 раз, значительно повысить качество работы модели и даже научить нейросеть создавать анимации и полноценные видео — всё это уже сейчас помогает людям творческих профессий быть ещё креативнее и продуктивнее. Наша задача сделать так, чтобы Kandinsky становился еще функциональнее, проще и эффективнее. Это позволит выйти на новый уровень креативности и дать людям и компаниям новые и ещё более интересные идеи для творчества», — уточнил Андрей Белевцев.
Kandinsky помогает сохранять и популяризировать культурное наследие страны. Так, с помощью нейросети Kandinsky 3.0 удалось восстановить образы утраченных картин известных русских художников (совместный с музеями Воронежа и Волгограда проект «Возрождённая коллекция»). Муралы, созданные с участием Kandinsky 2.2, украсили девять школ в Волгограде в рамках проекта «Уроки истории». В феврале 2024 года Императорский фарфоровый завод выпустил коллекцию кружек с рисунками от нейросети Сбера.
Мультимедийный контент от нейросети используется на главных мероприятиях страны, таких как международная выставка-форум «Россия», Всемирный фестиваль молодёжи, «Игры будущего», Петербургский международный экономический форум и другие.
Оценить возможности искусственного интеллекта можно на платформе fusionbrain.ai, в Telegram- и VK-ботах, а также в мобильном приложении СберБанк Онлайн.