Stability AI, une startup prometteuse en matière d'IA, a dévoilé un produit révolutionnaire appelé Stable Video Diffusion. Ce modèle d'IA a la capacité de transformer des images existantes en vidéos en les animant, et c'est l'un des rares modèles de génération de vidéos disponibles pour une utilisation open source. Le lancement de Stable Video Diffusion intervient à un moment où le chaos chez OpenAI fait la une des journaux, démontrant la résilience de Stability AI et la concentration sur sa feuille de route produit.

Stable Video Diffusion est actuellement dans une phase « d'aperçu de recherche », où les utilisateurs intéressés doivent accepter des conditions d'utilisation spécifiques. Ces termes décrivent les applications prévues de Stable Video Diffusion, telles que les outils éducatifs et créatifs, ainsi que la conception et d'autres processus artistiques. Cependant, il est important de noter que les représentations factuelles ou vraies de personnes ou d’événements ne font pas partie des utilisations prévues.

Bien que cette innovation de Stability AI recèle un immense potentiel, des inquiétudes subsistent quant à son éventuelle mauvaise utilisation. Compte tenu de l’historique d’aperçus de recherche similaires sur l’IA, y compris les versions précédentes de Stability AI, il est possible que le modèle soit exploité sur le dark web. Pour contrecarrer cela, il est crucial pour Stable Video Diffusion de disposer d'un filtre de contenu intégré pour éviter les abus. La version précédente du modèle de Stability AI, Stable Diffusion, a été utilisée à mauvais escient pour créer du contenu adulte deepfake non consensuel, soulignant l'importance de la réglementation du contenu.

Stable Video Diffusion se compose de deux modèles, à savoir SVD et SVD-XT. SVD peut transformer des images fixes en vidéos 576 × 1024 avec 14 images, tandis que SVD-XT augmente le nombre d'images à 24. Les deux modèles ont la capacité de générer des vidéos à une vitesse de trois à 30 images par seconde.

Selon le livre blanc accompagnant Stable Video Diffusion, SVD et SVD-XT ont été formés sur un ensemble de données comprenant des millions de vidéos. Le processus de formation impliquait d’affiner les modèles sur un ensemble plus restreint de centaines de milliers à un million de clips. L'origine de ces vidéos de formation reste floue, tout comme l'inclusion de tout contenu protégé par le droit d'auteur. Stability AI et les utilisateurs de Stable Video Diffusion pourraient potentiellement être confrontés à des défis juridiques et éthiques si du matériel protégé par le droit d'auteur était utilisé sans autorisation.

Malgré ses limites, qui incluent l'incapacité de générer des vidéos sans mouvement ou des panoramiques lents de la caméra, de restituer le texte de manière lisible ou de produire de manière cohérente des représentations précises de visages et de personnes, Stability AI est optimiste quant à l'extensibilité des modèles. Ils ont déclaré que les modèles peuvent être adaptés à des cas d'utilisation tels que la génération de vues d'objets à 360 degrés.

Stability AI a des projets ambitieux pour l’avenir de la diffusion vidéo stable. Ils travaillent au développement d’une gamme de modèles qui s’appuieront et étendront les capacités du SVD et du SVD-XT. De plus, ils développent un outil Web de « texte en vidéo » qui permettra aux utilisateurs d'inviter les modèles avec du texte. Le but ultime est la commercialisation, avec des applications potentielles dans la publicité, l’éducation, le divertissement et au-delà.

