» Håll dig ajour kring AI · En AI-skapad och ständigt föränderlig nyhetstidning om AI. Idag har vår robot sammanfattat 354 nyhetshändelser. Upptäck gärna vår kurs AI på jobbet förresten. «

Pinterest forskare föreslår förstärkningsinlärningsram för finjustering av diffusionsmodeller

Diffusionsmodeller är generativa modeller som fungerar genom att lägga till brus i träningsdata och sedan lära sig att återställa samma genom att vända brusprocessen. Deras prestanda bestäms dock i stor utsträckning av träningsdatafördelningen, vilket leder till problem som mänsklig estetisk mismatch, fördomar och stereotyper. Forskare från Pinterest har föreslagit ett ramverk för förstärkningsinlärning (RL) för finjustering av diffusionsmodeller för att uppnå resultat som är mer i linje med mänskliga preferenser. Det föreslagna ramverket möjliggör träning över miljontals prompts över olika uppgifter. Forskarna använde också en distributionsbaserad belöningsfunktion för finjustering av förstärkningsinlärning. Dessutom utförde forskarna också flera uppgifter samtidigt så att modellen är bättre rustad att hantera en varierad uppsättning mål samtidigt. De fann att deras metod är generaliserbar till alla belöningar och fick det bästa betyget när det gäller mänsklig preferens.

Direktlänk Dela MarkTechPost fördjupade 12 februari
2 400+ svenska företag och offentliga verksamheter har gått vår kurs "AI på jobbet".

» Nyheterna från en dag tidigare

Några av våra kursdeltagare