La génération de vidéos par intelligence artificielle n’est plus une promesse futuriste : c’est désormais une course à la qualité, à la précision et à l’émotion. Veo 3 a été dévoilé hier lors de la conférence Google I/O 2025, et le moins que l’on puisse dire c’est que c’est une énorme claque avec en particulier l’intégration de son natif. De quoi s’inquiéter sérieusement pour l’avenir des deepfakes.
- Veo 3 peut générer des vidéos réalistes avec du son à partir de textes ou d'images.
- Il comprend le contexte, synchronise l'audio et marque les contenus pour éviter la désinformation.
- Pour l’instant, Veo 3 est réservé aux États-Unis et coûte environ 250 dollars par mois.
- La génération d’une vidéo de 30 secondes prend environ 3 à 5 minutes, ce qui est très rapide.
En guise d’introduction, rappelons qu’il y a 2 ans à peine on en était là :
Ce serait un doux euphémisme que de dire que les choses ont changé depuis, comme vous allez pouvoir le constater.
Veo3, une IA de génération de vidéo qui voit, entend et parle
Développé par DeepMind, le laboratoire de recherche de Google spécialisé en IA, Veo 3 est un modèle génératif de nouvelle génération capable de produire des vidéos photoréalistes à partir de simples descriptions textuelles ou visuelles. Mais là où les versions précédentes, comme Veo 2 dont on vous parlait hier, ou les concurrents se limitaient à l’image, Veo 3 y ajoute le son.
Cela va bien au-delà d’une simple piste audio plaquée :
- le modèle comprend le contexte de la scène
- identifie les éléments susceptibles de produire un son (le vent, des bruits de pas, une voix humaine)
- et génère une bande sonore cohérente et synchronisée.
La promesse est ambitieuse : permettre à n’importe quel utilisateur d’écrire un prompt comme “Un homme court sous la pluie dans une ruelle sombre” et de recevoir un clip d’une trentaine de secondes avec visuel réaliste, bruit de pluie, souffle haletant et écho des pas.
Selon Demis Hassabis, PDG de DeepMind, « Veo 3 met fin à l’ère des vidéos muettes générées par IA ». Et la démonstration est saisissante : les extraits dévoilés en ligne montrent une synchronisation labiale bluffante, des ambiances sonores immersives et une fluidité d’image difficile à distinguer de la réalité.
Quelles sont les fonctionnalités de Veo 3 ?
| Fonctionnalité | Description |
|---|---|
| Génération vidéo | Jusqu’à 1 minute en qualité 1080p, à partir de texte ou d’images |
| Intégration audio | Bruitages, ambiances sonores, dialogues synchronisés |
| Compréhension contextuelle | Interprétation avancée des prompts complexes (métaphores, scènes abstraites) |
| Marquage numérique | Filigrane invisible SynthID pour détecter les contenus générés |
| Outil associé | Flow : interface de création simplifiée, disponible dans Gemini |
Les vidéos produites sont marquées automatiquement à l’aide de SynthID, un tatouage numérique développé par DeepMind pour garantir la traçabilité des contenus générés par IA, un enjeu crucial à l’heure des deepfakes et de la désinformation.
Combien coûte Veo 3 ?
Pour l’instant, Veo 3 n’est accessible qu’aux États-Unis via l’offre Google AI Premium Ultra, facturée 249,99 $/mois. Ce tarif inclut l’accès à Gemini Ultra, à l’outil Flow et à Veo 3. Il s’agit clairement d’une solution orientée vers les créateurs professionnels, les studios ou les marques.
Google n’a pas encore précisé si une version allégée ou gratuite serait proposée dans le futur. En parallèle, les entreprises peuvent accéder à Veo 3 via Google Cloud Vertex AI, avec une facturation à l’usage, comme pour les modèles de traitement d’image ou de texte.
Combien de temps pour générer une vidéo de 30 secondes ?
Google ne donne pas de chiffre officiel, mais les premiers retours suggèrent que la génération de courtes vidéos (8 à 15 secondes) via Flow prend entre 30 secondes et 2 minutes, selon la complexité du prompt et le trafic sur les serveurs. Pour une vidéo de 30 secondes, on peut donc estimer un délai de 3 à 5 minutes pour la génération complète audio + vidéo.
Cela reste extrêmement rapide comparé à une production vidéo classique, même en motion design ou animation 3D. Et c’est justement cette promesse de productivité qui attire déjà les premiers créateurs.
Et pour la France ?
À l’heure actuelle, Veo 3 n’est pas encore disponible en Europe. Google n’a pas annoncé de calendrier précis pour un déploiement hors États-Unis. Il est toutefois probable que l’outil soit intégré aux futures versions de Gemini for Workspace et aux services de Google Cloud destinés aux entreprises européennes.
Les professionnels français peuvent cependant s’inscrire à une liste d’accès anticipé via Google Cloud Vertex AI, ce qui pourrait ouvrir des possibilités d’expérimentation dans les mois à venir.
- Logitech StreamCam : Webcam pour Streaming Youtube et Twitch, Full HD 1080p 60Fps, Connexion USB-C, détection des Visages par IA, Mise au Point Automatique, vidéo Verticale – BlancCompatibilité : Windows 10 ou version ultérieure | macOS 10.14 ou version ultérieure | IntelCore 7e génération i5 ou version ultérieure | Connexion directe de type C USB 3.1 1re génération FULL HD 1080P : bénéficiez d’une clarté inégalée grâce à une qualité Full HD 1080p à 60 fps. La StreamCam de Logitech est la référence en matière de streaming, pour les créateurs et les spectateurs CONNEXION USB-C : la StreamCam utilise une connexion USB Type-C pour des vitesses optimales de transfert vidéo. Reposez-vous sur une connexion rapide et fiable pour streamer en toute tranquillité MISE AU POINT AUTOMATIQUE : la détection des visages par IA de Logitech Capture offre une mise au point et une exposition d’une précision inégalée pour un rendu professionnel, clair et net VIDÉO VERTICALE FULL HD : optimisez votre contenu pour les portables. Passez en mode portrait dans Logitech Capture en tournant la StreamCam à 90°. Idéal pour les stories Instagram et Facebook FIXATIONS MULTIPLES : obtenez l’angle parfait à tous les coups. Compatible avec les trépieds, la caméra vous permet de vous présenter sous votre meilleur jour pour votre stream ou votre vidéo Skype
- SaveFamily Iconic Plus 2 | Montre Connectée pour Enfant avec Localisateur GPS, Appels, Vidéo, IA, Bouton SOS, Whatsapp, Spotify, Thermomètre | Modèle Street StyleSAVEFAMILY, LA MARQUE N°1 DES MONTRES CONNECTÉES POUR ENFANTS EN ESPAGNE | Toutes nos montres sont conçues en Espagne, par et pour les enfants, avec des matériaux résistants et une sécurité maximale. Service technique et logiciel propres. DONNÉES SÉCURISÉES EN EUROPE | Contrôle parental via une application cryptée propre et données stockées sur des serveurs européens pour protéger votre enfant. LOCALISATEUR GPS | GPS en temps réel, bouton SOS, appels sécurisés et zones sécurisées pour localiser votre enfant à tout moment. WHATSAPP, SPOTIFY, IA, VIDÉO | Utilisez WhatsApp en toute sécurité, enregistrez et lisez des vidéos, écoutez de la musique sur Spotify, passez et recevez des appels. Avec une IA interactive qui répond aux questions les plus curieuses des petits. Du divertissement pour les enfants en toute sécurité. MODE CLASSE INTELLIGENT | Évite les distractions pendant les heures de classe et maintient les fonctions essentielles actives. PERSONNALISABLE ET UNIQUE | Bracelets interchangeables avec 10 combinaisons de couleurs et fonds d’écran animés. Parce que chaque enfant mérite une montre qui lui ressemble.