
Snap на CVPR
Snap Research определяет будущее цифровых технологий для творчества
В этом году мы представим 12 докладов на CVPR 2025, главной конференции по инновациям в области ИИ и компьютерного зрения, которая пройдёт с сегодняшнего дня по 15 июня в Нэшвилле, штат Теннесси.
77% материалов, поданных на исследование в Snap Research, были приняты. В среднем по отрасли этот показатель составляет 22%. Это свидетельствует об инновационной работе нашей команды.
Snap представит презентацию на ряд тем, включая два наших доклада, SnapGen и 4Real-Video, которые вошли в 3% лучших материалов на CVPR.
Полную сводку и расписание см. ниже.
1. SnapGen: разработка моделей преобразования текста в изображения высокого разрешения для мобильных устройств с помощью эффективных архитектур и обучения
Модель преобразования текста в изображения на базе Snap AI для мобильных устройств
SnapGen — это высокопроизводительная исследовательская модель преобразования текста в изображения, предназначенная для работы непосредственно на мобильных устройствах, которая генерирует высококачественные изображения менее чем за две секунды. Она способна значительно сократить объём вычислений и памяти, необходимых для создания изображений на устройстве.

2. SnapGen-V: создание пятисекундного видео за пять секунд на мобильном устройстве
SnapGen-V расширяет нашу модель SnapGen для создания пятисекундных видео прямо на мобильных устройствах всего за пять секунд. Эта технология позволяет быстро создавать видео на устройствах, опираясь на наши достижения в области преобразования текста в изображения.

3. 4Real-Video: применение обобщаемой фотореалистичной диффузии 4D-видео
Исследовательская модель 4Real-Video генерирует реалистичные 4D-видео с высокой детализацией и естественными движениями, которые можно просматривать с разных ракурсов. Эта технология может найти применение в сфере иммерсивной виртуальной реальности и создания историй следующего поколения.

4. Stable Flow: незаменимая платформа для редактирования изображений без обучения
Наша исследовательская модель Stable Flow позволяет эффективно редактировать изображения, например добавлять или удалять объекты, не требуя сложного обучения или профессионального оборудования. Такой подход позволяет с лёгкостью редактировать фотографии любому, кто не обладает техническими знаниями.

5. Omni-ID: целостная идентификация, предназначенная для генеративных задач
Наша исследовательская модель Omni-ID создаёт комплексные изображения лиц людей с разных ракурсов на основе различных выражений, что позволяет получать более реалистичные и персонализированные материалы для ИИ и AR.

6. PrEditor3D: быстрое и точное редактирование 3D-фигур
PrEditor3D — это инструмент, разработанный нашими исследовательскими группами, который позволяет быстро и точно редактировать 3D-модели с минимальными усилиями, упрощая процесс создания 3D-контента за счёт оптимизации манипуляций и корректировки 3D-фигур. На практике PrEditor3D может помочь художникам-мультипликаторам и авторам линз эффективно воплощать свои идеи в жизнь, что приведёт к появлению более впечатляющих и иммерсивных AR-возможностей.

7. Мозаика модальностей: комплексный эталонный тест для мультимодального обучения на основе графов
MM-Graph представляет собой первый эталонный тест для мультимодального обучения на основе графов, включающий как визуальные, так и текстовые данные, чтобы устранить значительный недостаток визуальной информации в текущих эталонных тестах. Это позволяет проводить более комплексную оценку моделей и способствует внедрению инноваций в системы обучения на основе графов, способные анализировать реальные входные данные большего объёма.

С помощью текстовых запросов и набора эталонных изображений Video Alchemist позволяет создавать видео, не требуя обширной настройки или оптимизации. На практике это позволит упростить персонализацию видео с помощью пользовательских эффектов и фонов, что сэкономит время и расширит творческие возможности.

9. Mind the Time: генерация видео с несколькими событиями на основе контроля времени
Mind The Time обеспечивает точный контроль времени в видео, сгенерированным ИИ. Этот инструмент даст авторам возможность определять последовательность и время событий. Он позволяет создавать более структурированные и последовательные истории при генерации видео.

10. Перенос движений в видео с помощью диффузионных средств трансформации
Перенос движений в видео — это способ переноса реалистичных движений из одного видео в другое с помощью исследовательской диффузионной модели. Применяя эту модель, можно легко создавать видео с реалистичными движениями путём переноса движений из эталонных видео, не требуя сложной настройки.

11. Wonderland: создание 3D-сцен на основе одного изображения
Wonderland создаёт детальные 3D-сцены на основе всего одной фотографии. Это упрощает создание 3D-сцен и позволяет быстрее и эффективнее проектировать их без потребности в нескольких ракурсах или значительных ресурсах.

12. AC3D: анализ и улучшение управления 3D-камерой в диффузионных средствах преобразования видео
AC3D улучшает управление камерой в моделях генерации видео, обеспечивая более плавное и реалистичное движение. Это позволяет авторам более гибко управлять движением камеры в видео, а также повышает качество и реалистичность генерируемых сцен.

Присоединяйтесь к нам на CVPR!
* Все указанные здесь модели и работы предназначены только для исследовательских целей.
Связаться с нами
Запросы для прессы отправляйте на адрес press@snap.com.
По всем остальным вопросам обращайтесь на наш сайт поддержки.