» Håll dig ajour kring AI · En AI-skapad och ständigt föränderlig nyhetstidning om AI. Idag har vår robot sammanfattat 251 nyhetshändelser. Upptäck gärna vår kurs AI på jobbet förresten. «

Ny forskning utmanar förmågan hos multimodala språkmodeller att förstå visuell perception

Forskare från University of Pennsylvania, University of Washington, Allen Institute for AI, University of California och Columbia University har samarbetat för att undersöka visuell perception hos multimodala stora språkmodeller (LLMs). De introducerar Blink, en ny benchmark för LLMs som fokuserar på kärnvisuell perceptionsförmåga. Blink innehåller 14 klassiska datorseendeutmaningar och 3 800 frågor med 7 300 bilder. Forskarna upptäckte att den mest avancerade modellen, GPT-4V, bara uppnådde en genomsnittlig noggrannhet på 51,26%, vilket är 44,44% sämre än människor och bara 13,17% bättre än slumpmässig gissning. Forskningen föreslår att perceptuella kapaciteter hos multimodala LLMs kan ha överdrivits.

Direktlänk Dela MarkTechPost fördjupade 23 april
3 000+ kursdeltagare från svenska företag och offentliga verksamheter
har gått vår kurs "AI på jobbet".

» Nyheterna från en dag tidigare

Några av våra kursdeltagare