Сбер представил MALVINA - нейросетевой редактор изображений с попиксельной точностью

Команда Сбера анонсировала новый инструмент для редактирования изображений под названием MALVINA (Multimodal Artificial Language VIsion Neural Assistant). По словам разработчиков, редактор позволяет вносить изменения в изображения на основе текстовых запросов, стремясь к максимальному сохранению деталей оригинальной картинки, не затронутых правками. MALVINA уже интегрирована в сервис GigaChat и доступна для использования.

Представители Сбера утверждают, что их разработка демонстрирует превосходство в точности редактирования по сравнению с такими моделями, как GPT-4o, Gemini и Grok, особенно в задачах, требующих сохранения исходных элементов изображения. В основе MALVINA лежит диффузионный подход, в отличие от авторегрессионного, который, по мнению создателей, чаще "перерисовывает по мотивам", а не редактирует точечно.

Архитектура MALVINA включает VLM-модель (GigaChat Vision), которая обрабатывает исходное изображение и текстовый запрос, формируя инструкции для диффузионной модели. Также используется блок Mixture-of-Experts для адаптации к различным задачам редактирования. Для обучения нейросети использовались как открытые наборы данных, так и специально собранные и синтезированные примеры, общее число которых превысило 1,5 миллиона.

Для оценки качества была разработана собственная метрика VLM-score, а также проводились слепые сравнения (SBS) с участием людей, где MALVINA, по данным Сбера, показала лучшие результаты, чем Gemini. Примеры работы включают удаление и добавление объектов, изменение фона, стилизацию, реставрацию старых фото и работу с изображениями людей. Сбер предоставил открытый доступ к более чем 1100 коллажам, использованным для сравнения.

Разработчики отмечают, что, как и все генеративные модели, MALVINA может не всегда давать идеальный результат с первой попытки и иногда требует нескольких итераций или уточнения запроса. В планах на будущее — дальнейшее улучшение качества, добавление новых функций, таких как интеграция текста на изображения, и возможность работы с несколькими референсными картинками.

Комментарии: 31

Ваш комментарий

___Ghost___ 29 мая 2025

Ужасный конечный результат, скальпель головы, кот наркоман, булыжники засыпали ноги...

Hidan20 29 мая 2025

А ещё капот из металлического превратился в тканевой 😂

PanKotovsky 29 мая 2025

Сбер представил...

Мне кажется, что это худшая реклама для любого продукта, тем более для АйТи.

AGS37 29 мая 2025

M1notaur 29 мая 2025

...по данным Сбера, показала лучшие результаты, чем Gemini...

🤣🤣🤣🤣🤣🤣

Eugene Melnikov 29 мая 2025

Особенно если учесть, что Gemini там уже видосы бахает. Со звуком и достаточно качественные. С лишними пальцами и конечностями только иногда проблемы. Почти нет

Mr.Anonymous 30 мая 2025

Сбер контора сами знаете кого

Talendor3 29 мая 2025

всратый кот и смешная тачка

Global Conspiration 30 мая 2025

Пробовал сделать копию картинки, попросил изменить лишь текст. Так мне даже близко эта мальвина не смогла. Зато сора 99% копию в лет сделала. Так что пущай ваша мальвина заглатывает у пьеро и нос свой не высовывает, бестолковая баба