» Håll dig ajour kring AI · En AI-skapad och ständigt föränderlig nyhetstidning om AI. Idag har vår robot sammanfattat 138 nyhetshändelser. Upptäck gärna vår kurs AI på jobbet förresten. «

ByteDance Research lab föreslår förbättrad metod för att öka resonemangsförmågan hos lärande LLM

Forskare från ByteDance Research lab föreslår en praktisk metod känd som Reinforced Fine-Tuning (ReFT) för att förbättra generaliseringsförmågan hos lärande LLM för resonemang, med matematikproblemlösning som ett illustrativt exempel. ReFT-metoden börjar med att initialt värma modellen genom SFT. Sedan utnyttjar den online förstärkningsinlärning, specifikt med användning av Proximal Policy Optimization (PPO) algoritmen. Under denna finjusteringsprocess utsätts modellen för olika resonemangsvägar som automatiskt provtas baserat på den givna frågan. Belöningar för förstärkningsinlärning kommer naturligt från de sanna svaren, vilket bidrar till en mer robust och anpassningsbar LLM för förbättrade resonemangsförmågor.

Direktlänk Dela MarkTechPost fördjupade 21 januari
3 000+ kursdeltagare från svenska företag och offentliga verksamheter
har gått vår kurs "AI på jobbet".

» Nyheterna från en dag tidigare

Några av våra kursdeltagare