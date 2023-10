I modelli di diffusione probabilistica sono diventati lo standard per la modellazione generativa in domini continui, in particolare nella generazione da testo a immagine. Tra questi modelli, DALLE ha guadagnato una notevole attenzione per la sua capacità di generare immagini addestrandosi su set di dati su larga scala. Tuttavia, controllare il comportamento di questi modelli non supervisionati nelle attività a valle si è rivelato un’impresa impegnativa.

In risposta a questa sfida, i ricercatori hanno tentato di mettere a punto i modelli di diffusione utilizzando tecniche di apprendimento per rinforzo. Tuttavia, questo approccio è noto per la sua elevata varianza negli stimatori del gradiente. Per affrontare questo problema, un nuovo documento introduce un metodo chiamato “AlignProp” che allinea i modelli di diffusione con le funzioni di ricompensa a valle attraverso la backpropagation end-to-end del gradiente di ricompensa durante il processo di denoising.

AlignProp offre un approccio innovativo che mitiga gli elevati requisiti di memoria tipicamente associati alla backpropagation attraverso moderni modelli da testo a immagine. Ciò viene ottenuto ottimizzando i moduli di peso dell'adattatore di basso rango e implementando il checkpoint del gradiente.

Le prestazioni di AlignProp sono state valutate attraverso vari obiettivi, tra cui l'allineamento semantico immagine-testo, l'estetica, la comprimibilità dell'immagine e la controllabilità del numero di oggetti nelle immagini generate. I risultati mostrano che AlignProp supera i metodi alternativi ottenendo ricompense più elevate in meno fasi di formazione. Inoltre, la sua semplicità concettuale lo rende una scelta semplice per ottimizzare i modelli di diffusione basati su funzioni di ricompensa differenziabili.

Utilizzando i gradienti ottenuti dalla funzione di ricompensa, AlignProp migliora sia l'efficienza di campionamento che l'efficacia computazionale nella messa a punto dei modelli di diffusione. Gli esperimenti dimostrano costantemente l'efficacia di AlignProp nell'ottimizzare un'ampia gamma di funzioni di ricompensa, anche per compiti difficili da definire esclusivamente tramite suggerimenti.

La futura direzione della ricerca per AlignProp prevede l’estensione di questi principi a modelli linguistici basati sulla diffusione, con l’obiettivo di migliorare il loro allineamento con il feedback umano.

(Fonte: documento di ricerca su AlignProp per la messa a punto dei modelli di diffusione)