Neural Speed: Snabb inferens på CPU för 4-bitars stora språkmodeller

» Håll dig ajour kring AI · En AI-skapad och ständigt föränderlig nyhetstidning om AI. Idag har vår robot sammanfattat 55 nyhetshändelser. Upptäck gärna vår kurs AI på jobbet förresten. «

Neural Speed: Snabb inferens på CPU för 4-bitars stora språkmodeller

Att köra stora språkmodeller (LLM) på konsumenthårdvara kan vara utmanande. Om LLM inte passar på GPU-minnet, tillämpas kvantisering vanligtvis för att minska dess storlek. Men även efter kvantisering kan modellen fortfarande vara för stor för att passa på GPU:n. Ett alternativ är att köra den på CPU RAM med hjälp av ett ramverk optimerat för CPU-inferens som llama.cpp. Intel arbetar också med att påskynda inferens på CPU. De föreslår ett ramverk, Intels förlängning för Transformers, byggt på Hugging Face Transformers och lätt att använda för att utnyttja CPU:n. Med Neural Speed (Apache 2.0 licens), som bygger på Intels förlängning för Transformers, accelererar Intel ytterligare inferens för 4-bitars LLM på CPU:er. Enligt Intel kan användning av detta ramverk göra inferens upp till 40x snabbare än llama.cpp.

Direktlänk

Direktlänk

Dela

Towards Data Science fördjupade 19 april

3 000+ kursdeltagare från svenska företag och offentliga verksamheter
har gått vår kurs "AI på jobbet".

» Nyheterna från en dag tidigare

Neural Speed: Snabb inferens på CPU för 4-bitars stora språkmodeller

Några av våra kursdeltagare