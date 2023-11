Stability AI, una prometedora startup d'IA, ha presentat un producte innovador anomenat Stable Video Diffusion. Aquest model d'IA té la capacitat de transformar imatges existents en vídeos animant-los, i és un dels pocs models de generació de vídeos disponibles per a ús de codi obert. El llançament de Stable Video Diffusion arriba en un moment en què el caos d'OpenAI domina els titulars, mostrant la resiliència de Stability AI i centrant-se en el full de ruta del seu producte.

Stable Video Diffusion es troba actualment en una fase de "visualització prèvia de la investigació", on els usuaris interessats han d'acceptar les condicions d'ús específiques. Aquests termes descriuen les aplicacions previstes de Stable Video Diffusion, com ara les eines educatives i creatives, així com el disseny i altres processos artístics. Tanmateix, és important tenir en compte que les representacions reals o reals de persones o esdeveniments no es troben entre els usos previstos.

Tot i que aquesta innovació de Stability AI té un potencial immens, hi ha preocupacions pel seu potencial mal ús. Tenint en compte l'historial de previsualitzacions similars d'investigació d'IA, incloses les versions anteriors de Stability AI, hi ha la possibilitat que el model es pugui explotar a la xarxa fosca. Per contrarestar-ho, és crucial que Stable Video Diffusion tingui un filtre de contingut integrat per evitar els abusos. La versió anterior del model de Stability AI, Stable Diffusion, es va utilitzar malament per crear contingut per a adults deepfake no consensuat, destacant la importància de la regulació del contingut.

Stable Video Diffusion consta de dos models, és a dir, SVD i SVD-XT. SVD pot transformar imatges fixes en vídeos de 576 × 1024 amb 14 fotogrames, mentre que SVD-XT augmenta els fotogrames a 24. Tots dos models tenen la capacitat de generar vídeos a un rang de tres a 30 fotogrames per segon.

Segons el document blanc que acompanya Stable Video Diffusion, SVD i SVD-XT es van formar en un conjunt de dades que incloïa milions de vídeos. El procés d'entrenament va implicar ajustar els models en un conjunt més petit de centenars de milers a un milió de clips. L'origen d'aquests vídeos de formació encara no està clar, així com la inclusió de qualsevol contingut amb drets d'autor. Stability AI i els usuaris de Stable Video Diffusion podrien enfrontar-se a reptes legals i ètics si s'utilitzava material amb drets d'autor sense permís.

Malgrat les seves limitacions, que inclouen la impossibilitat de generar vídeos sense moviment o panoràmica de la càmera lentes, renderitzar el text de manera llegible o produir de manera coherent representacions precises de cares i persones, Stability AI és optimista sobre l'extensibilitat dels models. Han afirmat que els models es poden adaptar a casos d'ús com ara generar vistes de 360 ​​graus d'objectes.

Stability AI té plans ambiciosos per al futur de Stable Video Diffusion. Estan treballant en el desenvolupament d'una gamma de models que es basaran i ampliaran les capacitats de SVD i SVD-XT. A més, estan desenvolupant una eina de "text a vídeo" basada en web que permetrà als usuaris demanar els models amb text. L'objectiu final és la comercialització, amb aplicacions potencials en publicitat, educació, entreteniment i més enllà.

