Сбер представил MALVINA - нейросетевой редактор изображений с попиксельной точностью

Команда Сбера анонсировала новый инструмент для редактирования изображений под названием MALVINA (Multimodal Artificial Language VIsion Neural Assistant). По словам разработчиков, редактор позволяет вносить изменения в изображения на основе текстовых запросов, стремясь к максимальному сохранению деталей оригинальной картинки, не затронутых правками. MALVINA уже интегрирована в сервис GigaChat и доступна для использования.

Представители Сбера утверждают, что их разработка демонстрирует превосходство в точности редактирования по сравнению с такими моделями, как GPT-4o, Gemini и Grok, особенно в задачах, требующих сохранения исходных элементов изображения. В основе MALVINA лежит диффузионный подход, в отличие от авторегрессионного, который, по мнению создателей, чаще "перерисовывает по мотивам", а не редактирует точечно.

Архитектура MALVINA включает VLM-модель (GigaChat Vision), которая обрабатывает исходное изображение и текстовый запрос, формируя инструкции для диффузионной модели. Также используется блок Mixture-of-Experts для адаптации к различным задачам редактирования. Для обучения нейросети использовались как открытые наборы данных, так и специально собранные и синтезированные примеры, общее число которых превысило 1,5 миллиона.

Для оценки качества была разработана собственная метрика VLM-score, а также проводились слепые сравнения (SBS) с участием людей, где MALVINA, по данным Сбера, показала лучшие результаты, чем Gemini. Примеры работы включают удаление и добавление объектов, изменение фона, стилизацию, реставрацию старых фото и работу с изображениями людей. Сбер предоставил открытый доступ к более чем 1100 коллажам, использованным для сравнения.

Разработчики отмечают, что, как и все генеративные модели, MALVINA может не всегда давать идеальный результат с первой попытки и иногда требует нескольких итераций или уточнения запроса. В планах на будущее — дальнейшее улучшение качества, добавление новых функций, таких как интеграция текста на изображения, и возможность работы с несколькими референсными картинками.

47
31
Комментарии:  31
Ваш комментарий

Ужасный конечный результат, скальпель головы, кот наркоман, булыжники засыпали ноги...

А ещё капот из металлического превратился в тканевой 😂

Сбер представил...

Мне кажется, что это худшая реклама для любого продукта, тем более для АйТи.

...по данным Сбера, показала лучшие результаты, чем Gemini...

🤣🤣🤣🤣🤣🤣

Особенно если учесть, что Gemini там уже видосы бахает. Со звуком и достаточно качественные. С лишними пальцами и конечностями только иногда проблемы. Почти нет

Сбер контора сами знаете кого

всратый кот и смешная тачка

Пробовал сделать копию картинки, попросил изменить лишь текст. Так мне даже близко эта мальвина не смогла. Зато сора 99% копию в лет сделала. Так что пущай ваша мальвина заглатывает у пьеро и нос свой не высовывает, бестолковая баба

может она не умеет текст менять?) пока что

Да прикол даже не в тексте, а в том, что она подставляет совершенно другую картинку🤣🤣🤣

Всё ясно. Playground продался Сберу 😒

чтобы ты спросил это же очевидно...

это работа для 700 индийских фотошоперов 🤣

ЗАГРУЗИТЬ ВСЕ КОММЕНТАРИИ