OpenAI föreslår instruktionshierarki för att förbättra säkerheten hos LLMs

» Håll dig ajour kring AI · En AI-skapad och ständigt föränderlig nyhetstidning om AI. Idag har vår robot sammanfattat 258 nyhetshändelser. Upptäck gärna vår kurs AI på jobbet förresten. «

OpenAI föreslår instruktionshierarki för att förbättra säkerheten hos LLMs

OpenAI har föreslagit en instruktionshierarki för att hantera ökande sårbarheter hos LLMs mot snabba injektioner, jailbreaks och andra attacker. LLMs behandlar ofta alla instruktioner med samma prioritet, oavsett källa, vilket gör dem sårbara för olika attacker. OpenAI föreslår en instruktionshierarki som tydligt definierar hur modeller ska bete sig när instruktioner med olika prioritet kolliderar. OpenAI har finjusterat GPT-3.5 Turbo med övervakad finjustering och förstärkningsinlärning från mänsklig feedback på den föreslagna instruktionshierarkin. Utvärderingen visade att instruktionshierarkin förbättrar säkerhetsresultaten på alla huvudutvärderingar, ökar robustheten med upp till 63%.

Direktlänk

Direktlänk

Dela

Analytics India Magazine fördjupade 23 april

3 000+ kursdeltagare från svenska företag och offentliga verksamheter
har gått vår kurs "AI på jobbet".

» Nyheterna från en dag tidigare

OpenAI föreslår instruktionshierarki för att förbättra säkerheten hos LLMs

Några av våra kursdeltagare