11 juin 2025
11 juin 2025

Snap à la Conference on Computer Vision and Pattern Recognition (CVPR)

Comment Snap Research est prêt à façonner l'avenir des technologies numériques créatives

Cette année, nous présenterons 12 publications à la CVPR 2025, la conférence incontournable pour l’IA et la vision par ordinateur, qui se déroule à Nashville (Tennessee) à partir d’aujourd’hui jusqu’au 15 juin.

77 % des soumissions de Snap Research ont été acceptées, ce qui est supérieur au standard de l'industrie qui est de 22 %, ce qui témoigne du travail innovant effectué par notre équipe. 

Snap interviendra sur plusieurs thématiques, notamment à travers deux de nos travaux — SnapGen et 4Real-Video — que la CVPR a classés parmi les 3 % de meilleures contributions.

Lisez ci-dessous pour un résumé complet et le programme de l'évènement.



1. SnapGen : Adapter les modèles de conversion texte/image à haute résolution pour les appareils mobiles grâce à des architectures et un programme de formation efficaces

Modèle IA Snap T2I pour mobiles

SnapGen est un modèle de recherche de conversion texte/image à haute performance conçu pour fonctionner directement sur les appareils mobiles pour générer des images de haute qualité en moins de deux secondes. Il a la possibilité de réduire considérablement les besoins en calcul et en mémoire nécessaires à la génération d'images sur appareil.

2. SnapGen-V : Génération de vidéos de cinq secondes en temps réel sur mobile

SnapGen-V étend notre modèle SnapGen afin de générer des vidéos de cinq secondes directement sur un appareil mobile en seulement cinq secondes. Il rend possible la génération rapide de vidéos directement sur mobile, en s’appuyant sur nos avancées en modélisation texte-à-image.

3. 4Real-Video : Vers un apprentissage généralisable pour la diffusion de vidéos 4D photoréalistes 

Le modèle de recherche 4Real-Video permet de générer des vidéos 4D réalistes, avec une grande richesse de détails et des mouvements naturels, visualisables sous différents angles. Cette technologie a des applications potentielles dans la réalité virtuelle immersive et les expériences de narration de nouvelle génération.

4. Stable Flow : des couches essentielles pour l’édition d’images sans entraînement

Notre modèle de recherche Stable Flow permet une puissante édition d'image, comme l'ajout ou la suppression d'objets, sans nécessiter une formation complexe ou du matériel haut de gamme. Cette approche permet à quiconque de modifier facilement des photos, sans avoir besoin de spécialité technique.

5. Omni-ID : représentation holistique de l'identité au service des tâches génératives

Notre modèle de recherche Omni-ID crée une représentation complète du visage humain sous différents angles et expressions, ce qui permet de générer des générations d'IA et de RA plus réalistes et personnalisées.

6. PrEditor3D : Pour une édition des formes 3D rapide et précise

PrEditor3D est un outil développé par nos équipes de recherche qui permet une édition rapide et précise des modèles 3D avec un minimum d'informations. Il rationalise le processus de création de contenu 3D en simplifiant la manipulation et l'ajustement des formes 3D. En pratique, PrEditor3D pourrait faciliter le travail des animateurs et des créateurs de Lenses, en leur permettant de donner vie à leurs idées plus efficacement, pour des expériences de réalité augmentée plus riches et immersives.

7. Mosaïque de modalités : une référence complète de l'apprentissage graphique multimodal 

MM-Graph présente la première référence pour l'apprentissage des graphiques multimodaux, qui intègre des données visuelles et textuelles afin de combler l'écart important d'informations visuelles dans les références actuelles. Cela offre la possibilité d’une évaluation plus exhaustive des modèles et favorise l’innovation dans les systèmes d’apprentissage graphique capables d’interpréter des données du monde réel plus complexes.

8. Video Alchemist

Grâce à une invite de texte et un ensemble d'images de référence, Video Alchemist permet de générer des vidéos sans trop de réglages ou d'optimisations. En pratique, cela simplifiera la personnalisation des vidéos avec des apparences et arrière-plans personnalisés, gagnant du temps tout en stimulant la créativité.

9. Mind the Time : La génération de vidéos de plusieurs événements avec une gestion précise de la temporalité

Mind the Time introduit un contrôle précis de la temporalité dans les vidéos générées par l'IA. Ainsi, les créateurs pourraient déterminer la séquence et l'enchaînement des événements. Il permet d'avoir une narration plus structurée et cohérente dans la génération de vidéos.

10. Le transfert de mouvement dans la vidéo à l’aide de transformeurs de diffusion

Le transfert de mouvement vidéo est une technique consistant à appliquer les mouvements d’une vidéo source à une vidéo cible en s’appuyant sur un modèle de diffusion. Dans son application, ce modèle pourrait créer des vidéos aux mouvements réalistes en transférant ceux-ci depuis des vidéos de référence, sans recourir à des dispositifs complexes.

11. Wonderland : L'exploration de scènes 3D à partir d’une image unique

Wonderland crée des scènes 3D détaillées à partir d'une photo unique, ce qui simplifie la création de scènes 3D et permet une conception plus rapide et plus efficace sans avoir besoin de plusieurs angles ou de ressources supplémentaires.

12. AC3D : L'analyse et l'amélioration du contrôle de la caméra 3D dans les transformateurs de diffusion vidéo

AC3D améliore le contrôle de la caméra dans les modèles de génération vidéo, permettant des mouvements plus fluides et réalistes. Cela offre aux créateurs une plus grande flexibilité dans les mouvements de caméra, tout en améliorant la qualité et le réalisme des scènes générées.

Venez nous retrouver à CVPR ! 

*Tous les modèles et les travaux présentés ici sont uniquement destinés à des fins de recherche. 

Retour aux actualités