#219 - Az év válsága a benchmarkok körül forog - podcast episode cover

#219 - Az év válsága a benchmarkok körül forog

Jul 16, 202535 minSeason 5Ep. 219
--:--
--:--
Download Metacast podcast app
Listen to this episode in Metacast mobile app
Don't just listen to podcasts. Learn from them with transcripts, summaries, and chapters for every episode. Skim, search, and bookmark insights. Learn more

Episode description

A nagy nyelvi modellek eredményességét nehéz mérni, hiszen egy meglehetősen szubjektív tevékenységet kellene összehasonlítható és objektív módon értékelni. A régebbi benchmark-adatbázisok, mint pl. az MMLU vagy a GPQA már nem jelentenek kihívást az LLM-eknek (ahogy ezt az LMArena Leaderboardján is láthatjuk), mert rájuk tanultak - de akkor mi a megoldás? Az Apple tanulmánya szerint (The Illusion of Thinking) úgysem tudnak komplex problémákat megoldani az LLM-ek, és Caiwei Chen is azt írja, hogy válságban a benchmarking (Can We Fix AI's Evaluation Crisis?). Amíg ezek vitatkoznak, mi versenyezhetünk az LLM-ekkel - ki az okosabb?

For the best experience, listen in Metacast app for iOS or Android