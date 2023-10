By

Probabilistische Diffusionsmodelle sind zum Standard für die generative Modellierung in kontinuierlichen Domänen geworden, insbesondere bei der Text-zu-Bild-Generierung. Unter diesen Modellen hat DALLE aufgrund seiner Fähigkeit, Bilder durch Training an großen Datensätzen zu erzeugen, große Aufmerksamkeit erlangt. Allerdings hat sich die Steuerung des Verhaltens dieser unbeaufsichtigten Modelle in nachgelagerten Aufgaben als anspruchsvolles Unterfangen erwiesen.

Als Reaktion auf diese Herausforderung haben Forscher versucht, Diffusionsmodelle mithilfe von Techniken des verstärkenden Lernens zu verfeinern. Allerdings ist dieser Ansatz für seine hohe Varianz bei Gradientenschätzern bekannt. Um dieses Problem anzugehen, stellt ein neues Papier eine Methode namens „AlignProp“ vor, die Diffusionsmodelle mit nachgelagerten Belohnungsfunktionen durch eine End-to-End-Backpropagation des Belohnungsgradienten während des Entrauschungsprozesses ausrichtet.

AlignProp bietet einen innovativen Ansatz, der die hohen Speicheranforderungen verringert, die typischerweise mit der Backpropagation durch moderne Text-zu-Bild-Modelle verbunden sind. Dies wird durch die Feinabstimmung von Adaptergewichtsmodulen mit niedrigem Rang und die Implementierung von Gradient Checkpointing erreicht.

Die Leistung von AlignProp wurde anhand verschiedener Ziele bewertet, darunter semantische Bild-Text-Ausrichtung, Ästhetik, Bildkomprimierbarkeit und Steuerbarkeit der Anzahl von Objekten in generierten Bildern. Die Ergebnisse zeigen, dass AlignProp alternative Methoden übertrifft, indem es in weniger Trainingsschritten höhere Belohnungen erzielt. Darüber hinaus ist es aufgrund seiner konzeptionellen Einfachheit eine unkomplizierte Wahl für die Optimierung von Diffusionsmodellen auf der Grundlage differenzierbarer Belohnungsfunktionen.

Durch die Verwendung von Gradienten, die aus der Belohnungsfunktion erhalten werden, verbessert AlignProp sowohl die Stichprobeneffizienz als auch die Recheneffektivität bei der Feinabstimmung von Diffusionsmodellen. Die Experimente belegen durchweg die Wirksamkeit von AlignProp bei der Optimierung einer breiten Palette von Belohnungsfunktionen, selbst für Aufgaben, die allein durch Eingabeaufforderungen nur schwer zu definieren sind.

Die zukünftige Forschungsrichtung von AlignProp besteht darin, diese Prinzipien auf diffusionsbasierte Sprachmodelle auszuweiten, mit dem Ziel, ihre Ausrichtung auf menschliches Feedback zu verbessern.

