AI-träningsmetod kan förhindra farligt och skadligt innehåll

» Håll dig ajour kring AI · En AI-skapad och ständigt föränderlig nyhetstidning om AI. Idag har vår robot sammanfattat 253 nyhetshändelser. Upptäck gärna vår kurs AI på jobbet förresten. «

AI-träningsmetod kan förhindra farligt och skadligt innehåll

En ny metod för att träna artificiell intelligens (AI) för att förhindra farligt, diskriminerande och skadligt innehåll har utvecklats. Metoden, kallad curiosity-driven red teaming (CRT), använder en AI för att generera farliga och skadliga frågor som kan ställas till en AI-chatbot. Dessa frågor används sedan för att identifiera hur man kan filtrera bort farligt innehåll. När man tränar stora språkmodeller som ChatGPT eller Claude 3 Opus för att begränsa farligt eller skadligt innehåll, skapar team av mänskliga operatörer vanligtvis en mängd frågor som sannolikt kommer att generera skadliga svar. Denna standardprocedur kallas ´red-teaming´ och förlitar sig på människor för att manuellt generera en lista. Under träningsprocessen används sedan de frågor som framkallar skadligt innehåll för att träna systemet om vad man ska begränsa när det används framför riktiga användare.

Direktlänk

Direktlänk

Dela

Live Science fördjupade 23 april

3 000+ kursdeltagare från svenska företag och offentliga verksamheter
har gått vår kurs "AI på jobbet".

» Nyheterna från en dag tidigare

AI-träningsmetod kan förhindra farligt och skadligt innehåll

Några av våra kursdeltagare