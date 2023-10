By

Les modèles de diffusion probabilistes sont devenus la norme pour la modélisation générative dans les domaines continus, en particulier dans la génération texte-image. Parmi ces modèles, DALLE a retenu l'attention pour sa capacité à générer des images en s'entraînant sur des ensembles de données à grande échelle. Cependant, contrôler le comportement de ces modèles non supervisés dans les tâches en aval s’est avéré être une entreprise difficile.

En réponse à ce défi, les chercheurs ont tenté d’affiner les modèles de diffusion à l’aide de techniques d’apprentissage par renforcement. Cependant, cette approche est connue pour sa grande variance dans les estimateurs de gradient. Pour résoudre ce problème, un nouvel article présente une méthode appelée « AlignProp » qui aligne les modèles de diffusion avec les fonctions de récompense en aval via une rétropropagation de bout en bout du gradient de récompense pendant le processus de débruitage.

AlignProp propose une approche innovante qui atténue les besoins élevés en mémoire généralement associés à la rétropropagation via des modèles texte-image modernes. Il y parvient en affinant les modules de poids d'adaptateur de bas rang et en implémentant des points de contrôle de gradient.

Les performances d'AligneProp ont été évaluées à travers divers objectifs, notamment l'alignement sémantique image-texte, l'esthétique, la compressibilité de l'image et la contrôlabilité du nombre d'objets dans les images générées. Les résultats montrent qu'AligneProp surpasse les méthodes alternatives en obtenant des récompenses plus élevées en moins d'étapes de formation. De plus, sa simplicité conceptuelle en fait un choix simple pour optimiser les modèles de diffusion basés sur des fonctions de récompense différentiables.

En utilisant les gradients obtenus à partir de la fonction de récompense, AlignProp améliore à la fois l'efficacité de l'échantillonnage et l'efficacité des calculs dans le réglage fin des modèles de diffusion. Les expériences démontrent systématiquement l'efficacité d'AligneProp dans l'optimisation d'un large éventail de fonctions de récompense, même pour des tâches difficiles à définir uniquement à l'aide d'invites.

L'orientation future de la recherche pour AlignProp consiste à étendre ces principes aux modèles de langage basés sur la diffusion, dans le but d'améliorer leur alignement avec le feedback humain.

