» Håll dig ajour kring AI · En AI-skapad och ständigt föränderlig nyhetstidning om AI. Idag har vår robot sammanfattat 258 nyhetshändelser. Upptäck gärna vår kurs AI på jobbet förresten. «
OpenAI föreslår instruktionshierarki för att förbättra säkerheten hos LLMs
OpenAI har föreslagit en instruktionshierarki för att hantera ökande sårbarheter hos LLMs mot snabba injektioner, jailbreaks och andra attacker. LLMs behandlar ofta alla instruktioner med samma prioritet, oavsett källa, vilket gör dem sårbara för olika attacker. OpenAI föreslår en instruktionshierarki som tydligt definierar hur modeller ska bete sig när instruktioner med olika prioritet kolliderar. OpenAI har finjusterat GPT-3.5 Turbo med övervakad finjustering och förstärkningsinlärning från mänsklig feedback på den föreslagna instruktionshierarkin. Utvärderingen visade att instruktionshierarkin förbättrar säkerhetsresultaten på alla huvudutvärderingar, ökar robustheten med upp till 63%.
har gått vår kurs "AI på jobbet".