Veo: Notre modèle vidéo le plus avancé
Veo produit des vidéos en résolution 1080p de premier ordre dans diverses esthétiques cinématographiques et visuelles, s’étendant au-delà d’une minute de durée. En exploitant une compréhension sophistiquée du langage naturel et de la sémantique visuelle, il crée des vidéos qui reflètent fidèlement le concept artistique d’un utilisateur, capturant avec précision le ton de la demande et rendant méticuleusement les détails, même dans des demandes plus longues.
Ce modèle offre une autorité créative sans précédent et comprend le langage cinématographique tel que “time lapse” ou “prises de vue aériennes d’un paysage”.
Veo garantit la cohérence et la continuité dans les images, veillant à ce que les personnes, les animaux et les objets se déplacent de manière convaincante à travers les plans.
Invitation aux cinéastes à explorer le potentiel créatif de Veo
Afin d’explorer comment Veo peut améliorer le flux de travail créatif des conteurs, nous invitons les cinéastes et créateurs issus de divers milieux à expérimenter avec le modèle.
Ces partenariats servent également à améliorer notre approche de conception, de construction et de mise en œuvre de nos technologies, en veillant à ce que les créateurs jouent un rôle essentiel dans leur développement.
Voici un aperçu de notre collaboration avec le cinéaste Donald Glover et son studio créatif, Gilga, qui ont utilisé Veo pour un projet de film à venir.
Compréhension Augmentée du Langage et des Visuels
Une compréhension améliorée à la fois du langage et des indices visuels est essentielle pour que les modèles vidéo génératifs construisent des scènes cohérentes. Ils doivent décoder avec précision les instructions textuelles et les intégrer avec les éléments visuels pertinents.
En utilisant un traitement sophistiqué du langage naturel et une compréhension sémantique visuelle, Veo crée des vidéos qui respectent fidèlement l’instruction fournie. Il capture habilement les subtilités et l’ambiance véhiculées dans le texte, représentant avec talent les détails complexes au sein de scènes multifacettes.
Lorsqu’il est fourni avec une vidéo d’entrée ainsi qu’une directive de montage – telle que l’incorporation de kayaks dans une vue aérienne d’une côte – Veo peut exécuter cette directive sur la vidéo d’origine, donnant ainsi naissance à une nouvelle vidéo éditée. De plus, il facilite le montage masqué, permettant des modifications sur des régions spécifiques de la vidéo en ajoutant une zone de masquage à la vidéo et à l’instruction textuelle.
Génération Vidéo Axée sur les Images avec Veo
Veo possède également la capacité de générer une vidéo basée sur une entrée d’image en conjonction avec une instruction textuelle. En présentant une image de référence aux côtés d’une instruction textuelle, Veo est conditionné pour générer une vidéo qui respecte le style de l’image tout en suivant les instructions fournies dans l’instruction utilisateur.
Le modèle est capable de créer des clips vidéo et de les étendre à des durées de 60 secondes ou plus. Il y parvient soit en utilisant une seule instruction, soit en recevant une séquence d’instructions qui racontent collectivement une histoire.
Instructions:
- Une prise de vue rapide traversant une zone urbaine dystopique vibrante ornée d’enseignes au néon vives, de véhicules en lévitation, d’une ambiance brumeuse, d’un cadre nocturne, de reflets de lentille et d’un éclairage volumétrique.
- Une prise de vue rapide à travers une étendue urbaine dystopique futuriste avec des enseignes au néon radieuses, des vaisseaux spatiaux planant au-dessus, une atmosphère nocturne et un éclairage volumétrique.
- Une représentation holographique d’une voiture en course à la vitesse maximale, évoquant un style cinématographique, des détails complexes et un éclairage volumétrique.
- Les voitures émergent du tunnel, réintégrant le paysage urbain animé de Hong Kong.
Veo : Un Produit de Recherches Approfondies sur les Modèles Vidéo Génératifs
Veo représente l’aboutissement de nombreuses années de développement dans notre recherche sur les modèles vidéo génératifs, s’appuyant sur des projets tels que Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet et Lumiere.
Cela intègre un mélange d’architecture, de lois d’échelle et de techniques innovantes visant à améliorer la qualité et la résolution de sortie.
Avec Veo, nous avons affiné les méthodes permettant au modèle de comprendre le contenu vidéo, de générer des images haute définition, de simuler la physique du monde réel, et bien plus encore.
Ces avancées stimuleront les progrès de nos efforts de recherche en intelligence artificielle et nous permettront de créer des produits encore plus impactants facilitant de nouvelles formes d’interaction et de communication.
À partir d’aujourd’hui, Veo est accessible à un groupe restreint de créateurs grâce à un aperçu privé dans VideoFX en rejoignant notre liste d’attente. De plus, nous prévoyons d’intégrer certaines des capacités de Veo dans YouTube Shorts et d’autres produits à l’avenir.
S’appuyant sur une recherche extensive en génération vidéo, Veo est construit sur des années de développement dans les modèles vidéo génératifs, y compris des projets tels que Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet, Lumiere, ainsi que notre architecture Transformer et Gemini.
Afin d’améliorer la capacité de Veo à comprendre et à répondre avec précision aux instructions, nous avons enrichi les légendes associées à chaque vidéo dans son ensemble de données d’entraînement avec des détails supplémentaires.
De plus, pour améliorer l’efficacité et les performances, le modèle utilise des représentations vidéo compressées de haute qualité, appelées latents. Ces optimisations élèvent non seulement la qualité globale des vidéos, mais simplifient également le processus de génération de vidéos.
Lisez l’article original sur :ZDNet
Pour en savoir plus :China Unveils New Stealth Aircraft Utilizing Plasma Technology