Podlodka #433 – Как оцениваются LLM - podcast episode cover

Podlodka #433 – Как оцениваются LLM

Jul 15, 20251 hr 28 min
--:--
--:--
Download Metacast podcast app
Listen to this episode in Metacast mobile app
Don't just listen to podcasts. Learn from them with transcripts, summaries, and chapters for every episode. Skim, search, and bookmark insights. Learn more

Episode description

Когда-то для оценки AI мы использовали только тест Тьюринга – человек общался с собеседником через чат, а потом пытался определить, кожаным или кремниевым был его собеседник. Сегодня мы видим, что оценка качества работы LLM – гораздо более сложная задача. Вместе с Пашей Чижовым из PleIAs мы закопались в то, как вообще сегодня оценивается AI, и обсудили все виды бенчмарков, арен, метрик, их врожденные недостатки, а заодно и как быть, когда по капоту вашего КАМАЗа ползет черт. Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях!
 Telegram-чат: https://t.me/podlodka Telegram-канал: https://t.me/podlodkanews Страница в Facebook: www.facebook.com/podlodkacast/ Twitter-аккаунт: https://twitter.com/PodcastPodlodka Ведущие в выпуске: Евгений Кателла, Егор Толстой Полезные ссылки: Бенчмарки https://huggingface.co/datasets/cais/mmlu https://huggingface.co/datasets/MMMU/MMMU https://huggingface.co/datasets/allenai/ai2_arc https://huggingface.co/datasets/Rowan/hellaswag https://huggingface.co/datasets/allenai/winogrande https://huggingface.co/datasets/Idavidrein/gpqa https://lastexam.ai/ https://www.swebench.com/ https://arcprize.org/arc-agi https://github.com/t3dotgg/SnitchBench Арена https://lmarena.ai/ Фреймворк для эвалов https://github.com/EleutherAI/lm-evaluation-harness Бумаги https://arxiv.org/abs/2504.07825 https://arxiv.org/abs/2311.12022 https://arxiv.org/abs/2406.12045 Тех репорты с таблицами https://www.anthropic.com/news/claude-4 https://ai.meta.com/blog/llama-4-multimodal-intelligence/ https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro https://openai.com/index/introducing-o3-and-o4-mini/
For the best experience, listen in Metacast app for iOS or Android