Podlodka #461 – Железо для ИИ - podcast episode cover

Podlodka #461 – Железо для ИИ

Jan 26, 20261 hr 10 min
--:--
--:--
Download Metacast podcast app
Listen to this episode in Metacast mobile app
Don't just listen to podcasts. Learn from them with transcripts, summaries, and chapters for every episode. Skim, search, and bookmark insights. Learn more

Summary

Гость Зигфрид Звездин из Cerebras объясняет, почему для обучения и инференса больших языковых моделей недостаточно обычных GPU, выделяя критическую роль пропускной способности памяти и проблемы коммуникации между чипами. Он рассказывает о мега-чипах Cerebras, предлагающих радикально иное решение для быстрого ИИ, а также затрагивает темы энергопотребления, экономики рынка и глобального дефицита чипов. Обсуждение охватывает альтернативные архитектуры, бизнес-модели и стратегические вызовы индустрии аппаратного ИИ.

Episode description

Этот выпуск – луч надежды для отчаявшихся геймеров, смирившихся, что все видеокарты сметут ИИ-корпорации. Говорим про чипы, на которых обучение и инференс работают кратно быстрее, чем на GPU. В чем секрет, и чего ожидать в будущем – обсуждаем с Зигфридом Звездиным из Cerebras! Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях!
 Telegram-чат: https://t.me/podlodka Telegram-канал: https://t.me/podlodkanews Страница в Facebook: www.facebook.com/podlodkacast/ Twitter-аккаунт: https://twitter.com/PodcastPodlodka Ведущие в выпуске: Женя Кателла, Егор Толстой Полезные ссылки: Telegram-канал гостя https://t.me/zzigfrid Telegram гостя https://t.me/ziggerzz LinkedIn гостя https://www.linkedin.com/in/zigfrid/

Transcript

Введение: Аппаратные ограничения для ИИ

Всем привет, друзья! С вами Показ Подлодка. Меня зовут Женя Котелло, и со мной сегодня в студии Егор Толстой. Егор, привет! Всем привет! И сегодня мы будем говорить про AI Hardware. Скептики, мы знаем, что вы здесь. Не переключайтесь, потому что сегодня мы не будем говорить про какой-нибудь там хайп и как там на вайп-кодить себе очередное что-нибудь. Сегодня будем говорить про то, где же и как же весь этот вайп-кодинг, на чем на чем он весь гоняется.

И почему это на самом деле интересно? Потому что на самом деле для меня, допустим, было открытие, что не одними, и только GPU- этот мир богат. Есть много всего интересно под капотом, и мы с этим попытаемся сегодня разобраться. Скажу даже больше, мы сегодня, надеюсь, разберемся, кто за что и почему лишил нас Half-Life 3. Может быть, узнаем, да.

А в гостях у нас сегодня Зихрид Звездин, ML Solution Architect из Cerebrosa, компании, которая делает альтернативу классическим GPU-подходам для обучения и инференса LLM. Зихрид, привет. Всем привет. Ребята, Женя, Егор. Ну, мы не будем начинать с острых вопросов: где GPU? Почему мы не можем? Почему Half-Life не вышел? Начнем с классики. Расскажи про себя, потому что мы, как там программисты, бывшие программисты, так или иначе, имеющие отношение к софту, обычно хорошо понимаем.

Что там происходит в мире разработки? А что происходит в мире железа? Это какая-то. Абсолютно неведомая страна, и как бы плюс-минус понятно, что происходит в компаниях, которые всех на слуху: там Nvidia, всякий Intel, ARM и так далее, потому что все это обсуждают. Но когда мы говорим про кастомное. Железо, которое специально делается именно под задачей AI, короче, абсолютно непонятно, что вообще должно в жизни человека случиться, чтобы он оказался в такой компании.

Потому что, если вкратце расскажешь свой бэкграунд, будет очень интересно узнать, чем ты занимался, что в итоге привело тебе в цереброс. Супер! Да, конечно, расскажу. Я программирую лет уже примерно 20 в своей жизни, а в я и машинный лерлинге лет 10. Работал я в разных компаниях, разных стартапах. Занимался и дата инженеринг, дата сайнс, машинка, сети, все что угодно.

Пока не понял, что я хочу вернуться в МЛ, в котором я учился, на фистехе, и вернуться захотел примерно в тот момент, когда уже чат-GPT и прочие LM начали хорошо развиваться. И благодаря нетворку попал в компанию Cerebrus, которая производит чипы, но при этом она не только производит свои чипы, которые, кстати, не GPU. Давайте не путать название GPU- это не про нас. А она еще делает и весь софт. Что потом можно было эти чипы использовать, и, например,

И для обучения, и для инференса, и для HPC ворклоудов. А что за софт, вообще хотя бы примерно? Мы о софте какого уровня говорим? Да слушай, ну когда у тебя есть железяка, тебе нужно уметь как-то с ней коммуницировать, верно? i do ok, API, OpenAI Compatible, którą ty możesz używać dla swoich biznes-zadach.

И у меня тут сразу вопрос. Возможно, я недостаточно подготовленный. Пришел ты и сказал Обучение, инференс и эйч. Что это такое? Да, HP C нужно всегда гуглить, что это такое. Это хай перформанс компьютинг. Ну, может быть и нет. Давайте сейчас. Yeah. Ну, на самом деле, нам не обязательно углубляться, знаешь, глубоко там, типа, что это за терминология и зачем это нужно. Просто, наверное, хочется понять принципиально. То есть, там, кажется, после.

Тысячи выпусков про яй, которые мы записали. Все примерно понимают, что вот есть обучение, да, когда мы там. Тренируем модельки, есть инференс, когда мы пытаемся, собственно, из нашего инпута получить какой-то аут, прогнав собственно через модельку. HPC в данном случае, где она лежит. HPC- это про то, что на самом деле чем занимаются суперкомпьютеры сейчас, у тебя есть какая-нибудь огромная.

Огромная сложная физическая задача или биологическая задача, например, симуляция биологической системы частиц, газа и так далее. Как ты можешь это просимулировать? Вот. И для этого обычно просто GPUs или CPU не хватит. Тебе нужно огромный суперкомпьютер, чтобы огромную систему смадч промоделировать. Окей. Так ну тогда раз разобрались.

Со всеми этими терминами давайте сначала, как бы, set the stage, установим какие-то базовые наверное ожидания тоже по тому, про что будем говорить дальше, потому что мы можем сразу начать говорить про железо. Но мне хотелось бы сначала разобраться с тем, какие вообще, когда мы говорим про всякие тяжелые ворклоуды.

Какие есть там ограничения именно на стороне железа? Потому что все примерно понимают, что там кажется, нам нужна память, кажется, нам нужны какие-то там ядра, кажется, нам нужно тратить сколько-то электричества. И судя опять же по кипишу, которые происходит в соцсетях, то говорят нам всем конец, потому что яичники раскупили все GPU, то нам всем конец, потому что оперативная память стала в три раза дороже.

Короче, давай попробуем разложить по полочкам, какие ограничения реально есть и на что они влияют, когда мы говорим именно про мир Ии Сейчас. Да, отличный вопрос. На самом деле тема супер обширная. Тут можно говорить как и про память на чипах, там про маленькие размеры, так и про дата-центры, размер дата-центров, да, то есть это уже квадратные метры и километры.

Я начну с того, что перечислю просто слова, которые попадают в эту категорию, и потом мы уже решим, про что мы хотим говорить. Ты уже сказал память, компьютер, интерконнект, электричество. И я добавлю, что дата-центры- место для дата-центров. Например, в Америке уже почти не осталось свободного места. Место в дата-центрах.

То есть тебе нужно ставить твои стойки оптимально, потому что дата-центры дорогие, например, особенно в Калифорнии. Плюс, когда ты уже оставил свою ценку в дата-центр, тебе нужно охлаждение воздухом или водой. То есть на самом деле это очень комплексная задача. Ну, и это уже не говоря про производство самих чипов, да, которые делаются в основном в ТСМС в Тайване, и тоже нужны материалы.

плюс геополитические вопросы и так далее. Это очень широкая тема. Слушай, вопрос, сразу ты сказал, что даже в Штатах место для дата-центров уже заканчивается, страна аж полпустая. Бери строй! Хорошее замечание. На самом деле сильно зависит от того, где цена электричества. И это очень сильно зависит от штатов. Плюс, еще, конечно, зависит от того, где находятся компании и где находится спрос. Понятно, что в Калифорнии находятся примерно все.

Из Бигтеха, да, и там уже примерно закончилось место, то, что осталось очень дорогое. Окей, понял. И еще один вопрос. Одна из штук, которые ты перечислил, это интерконнект. В данном случае, о чем мы говорим, это о том, С какой скоростью могут между собой коммуницировать железяки в дата-центре, например, или между дата-центрами? Да, это по факту.

Про провод, по которому будут передаваться данные, и, соответственно, будут определять, с какой скоростью могут общаться между собой железяки, например, в одном сервере или между серверов. Понял. Окей. Ну тогда вот давай сейчас, раз опять же, мы говорим про ИИ.

Узкие места и пропускная способность памяти

И у нас там кажется основные две задачи это обучение и інференс. Давай попробуем разобраться вот из всего перечисленного, где мы в первую очередь натыкаемся на батлнеки. Во что сейчас индустрия упирается для вот этих двух задач. Супер. Я на самом деле даже добавлю третью задачу: это reinforcement learning в контексте именно large language models. Больших языковых моделей. Значит, это не очень простой вопрос, но его важно понять правильно. Начнем с тренинга.

Когда мы говорим про тренинг, мы на самом деле даже говорим И нам нужно эти данные как-то хитро упаковать, пропустить через нашу языку модель, машину модель и получить на выход готовую. Модель соответственно, это задача, в которой мы можем заранее решить. У нас будет такой batch сайз, у нас будут так сильные GPUs. И мы сможем заранее оптимизировать использование GPU, то есть тех ресурсов, которые у нас есть. Это первый пункт. Второй пункт- про то, что это очень батч задача.

То есть ты сразу на вход будешь давать много данных, и они все будут проходить forward pass, backward pass, делать обновления и так далее. Окей, это у нас обучение. Как устроен инференс? Инференс, во-первых, ты не знаешь заранее, сколько у тебя придет запросов, если у тебя есть сервис как GPT. Ночью его используют мало, днем его используют много. Во-вторых, это задача, в которой труднее подойти к математической задаче с помощью вача.

Потому что у нас LLM-ки- это авторегрессионные модели. Что это значит? Это значит, что мы берем промпт, предсказываем следующий токен, мы предсказали, мы должны снова дать его на вход и так далее. То есть у нас есть больше коммуникации. Данные перемещаются в чипе. Ага, мы предсказали токен, мы должны продать снова в начале и так далее. Вот таким образом, у нас получается, что обучение это больше про батч и про то, что у нас заранее все известно, а инференс неизвестно.

плюс это еще более автоаграционная задача по сравнению с Обучением вот соответственно пока что я не рассказал при чем здесь компьютер и память. Если какие-то вопросы. Да, не, вроде понятно все. Ага. Окей, давайте тогда поговорим, где память, а где компьютер. На самом деле, даже важнее не память и компьютер, а пропуская способность памяти. Вот, особенно в инференсе, нам нужно, чтобы данные в чипе передавались быстро, чтобы ускорять наш инференс.

В тренинге это не настолько важно, поскольку мы заранее можем спроектировать, как у нас будут идти все данные. И как у нас будет соединен компьютер? Понятно, что это упрощение, но, грубо говоря, в тренинге нам важен компьютер и память, а в инференсе нам важна память и пропуская способность памяти. Третья РЛ в ренфорс learning в LLM-ках- это задача, в которой нужен одновременно и инференс, и тренинг.

Почему? Потому что мы должны делать роллаут, то есть инференс нашей модели, чтобы получать предсказания. Дальше мы проверяем на хорошее и плохое. Инференс и сервисный тренинг, и как еще веса между ними крутить, чтобы можно было быстро все обновлять. Окей, тут вроде картинка складывается, тогда я сейчас скажу что-то, что основано на понимании, которое вынес из нашего опять же выпуска. У нас был выпуск про вычисление на GPU.

Где мы, собственно, пытались понять, чем отличается там процессинг на CPU versus GPU, и, собственно, стало понятно, почему GPU стали полезны именно в мире победившего машин-ленинга искусственного интеллекта. И ну вот, у меня сложилось впечатление, что это потому, что как раз-таки у нас на GPU есть.

Есть видеопамять большая, и эта видеопамять- это не тот случай, когда мы, как CPU, должны последовательно выполнять какие-то инструкции, а можем делать миллион вещей одновременно, потому что у нас эта память вся может работать параллельно, условно, сейчас очень сильно прощаю. И мой вопрос такой: То есть понятно, что нам нужна вот эта высокая пропорциональная способность какой-то памяти.

GPU-шками кажется, эта задача как-то решается. Собственно, вопрос теперь это самый главный вопрос выпуска, о чем мы будем говорить дальше.

Недостатки GPU и альтернативные архитектуры

Что не так? Почему нельзя взять вот эти GPU-шки, которые уже там десятилетиями делают, и кажется, индустрия хорошо прокачалась в том, чтобы их делать быстрыми и производительными? И они вроде как раз помогают нам. С задачами около обучения инференса, почему их сейчас не хватает, почему нужно специальное кастомное железо, где в итоге зашиваемся мы сейчас с текущим железом GPU? Это отличный вопрос. Значит, тут нужно смотреть на то, что за память конкретно.

Чем ближе пам'ять находиться к самим процес-юнітс? тем быстрее мы можем передавать данные из памяти и делать вычисления и передавать обратно, и тем быстрее мы, например, можем делать инференс. Давайте сейчас для простоты скорсируемся на инференсе. У GPU с памятью, которая живет на самом чипе, она измеряется в килобайтах. Все большие языковые модели- это гигабайты.

8 миллиардов параметров, 120 миллиардов параметров. Соответственно, в GPU пришлось сделать иерарху памяти L1, L2, L3, в других терминах это SRAM, D-RAM, но не так важно, как называется, важно, что это означает по сути. То есть память у нас либо очень близко к чипу, либо дальше от чипа, и тогда она соединена с чипом, то есть с компьютом, к каким-то интерконнектам. Оказывается, что если мы положим очень много памяти на чип, то просто физически невозможно это победить, если мы оставим.

Память далеко от чипа, и будем соединять даже очень быстрым интеркономиком. Для сравнения, у Nvidia это вот пропускная способность 3 терабайта в секунду между памятью и своим чипом. А у нас, поскольку у нас память находится на чипе, это специальная способность в 7000 раз выше. И отсюда, как раз таки, большая разница. Сейчас. Мне надо осмыслить, потому что мне кажется, что я понял. И просто это звучит так просто, что я думаю, неужели я мог все сразу понять?

Ну, то есть я правильно понял, что все упирается в то, что мы, по сути, в одну единицу там памяти, которая у нас доступна на GPU, можем вместить очень на самом деле мало информации. И там пусть у нас их много, да. То есть, память там условно какая-то примерно большая, но все равно значит, что мы каждый. Kilo bajte? Kilo bajte sram na čipu. Da, da, da, da, da, da, da, da, da, da, da, da, da, da, da, da, da, da, da, da, da, da, da, da, da, da, da, da.

Значит, у GPU, во-первых, ограниченная память на одной GPU, во-вторых, в принципе, ограниченная, даже если мы возьмем эту HBM, которая живет вне типа.

Потому что нам, для того, чтобы делать большие вычисления, либо для инференса, либо для тренинга, нам нужно брать очень много GPUs, их соединять и думать про то, как они должны коммуницировать между собой. Соответственно, у нас Проблема теперь не только в пропускной способности, которая хуже, чем если бы там не была на чипе, но и в всей этой сложности коммуникации.

А это дополнительная сложность, когда ты проецируешь свою систему для обучения или для инференса. Я, короче, буду сейчас как попугай повторять, чтобы убедиться, что я правильно понял. То есть, когда у нас задача становится такой большой, то есть, я там не бытовая серия запустить у себя дома на Лм-студии какую-то там локальную модельку, а серии сделать что-то реально большое. То у нас просто все не влезет в видеопамять одной GPUшки.

Нам нужно эти чепишки с собой соединять, и естественно логичным образом мы не можем их там друг другу просто на клей посадить, чтобы они были физически соединены. Нам приходится между ними делать интерконнект, а это уже накладные расходы на по сути.

Коммуникацию между разными GPUшками, даже если мы их все объединяем в один, по сути, как бы вычислительный юнит. Да, именно так. И из этого можно сделать вывод: что неважно, сколько возьмешь GPU, ты возьмешь хоть 10 тысяч, хоть один миллион GPU, ты никогда не можешь достигнуть той же скорости.

Который ты смог бы достигнуть при другой архитектуры, где память ближе к чипам. Слушай, а отличается ли вот эта архитектура в зависимости от основных задач, которых ты от этих чипов ждешь, как раз-таки инференс или тренинг? Но есть также и совсем другие подходы с аналоговыми чипами, где гораздо дешевле стоит джоуль энергии, и также угрока, где они думают про то, как дата флоу, который можно заранее подсказать и то, что убрать.

Давай, если что, поясним, что когда ты говоришь грок, мне кажется, 99% слушателей подкаста думают про неходителя. На самом деле, те, кто знает про индустрию именно быстрого инференса, они все знают. Три компании помимо Nvidia- это Cerebrus, мы, это Groc с Q в конце. И это Samba Nova. Это единственная компания, которая делает инференс в скорости выше, чем Nvidia. Ну и чем GPUs, в принципе.

Давай сейчас попробуем здесь подвести небольшую черту, чтобы все ценаризовать, потому что, опять же, пытаюсь сейчас понять, как проблем Space. Короче, мы в первую очередь говорим про скорость инференса.

И для того, чтобы сделать быстрый инференс, нам нужно, во-первых, много памяти, и во-вторых, нужно, чтобы эта память вся была как бы коалоцирована так, чтобы между собой она могла общаться очень быстро. И поэтому здесь, собственно, классическая архитектура GPU нам идеологически не подходит, потому что GPU.

GPU- это какое-то небольшое количество памяти на чипе, которое ты не можешь бесконечно делать больше, можешь только ведюшки друг к другу подключать, через NVLINK и прочее. То есть, именно про это мы говорим. Мы сейчас именно про инференс, и для инференса- именно память. Пока что не компьютер. Нет, не совсем так. Давайте, опять же, остановимся только на инференсе. Действительно, хочется поговорить про тренинг попозже. Для инференса нужно, чтобы коммуникация между памятью.

Это первый аргумент, и второй аргумент. Хочется, чтобы все чипы можно было проще соединять, чтобы не было всей этой дополнительной сложности коммуникации. Но главный аргумент- это первый аргумент. Окей, понял. Я на самом деле хотел узнать, как это все вообще измеряется, потому что мне кажется, короче.

Как вообще сейчас какие-бенчмарки можно использовать, чтобы взять 5 GPUшек, соединить и сказать: вот здесь у нас получилась скорость доступа к памяти к компьютеру, вот такая-то, а потом мы сделали какую-то новую архитектуру и сказали: Блин, здесь у нас получилось все в 100 раз лучше. Как это вообще работает? Потому что сходу ничего не понятно. Да, и ты там еще по ходу упоминал стоимость джоуля. На самом деле, может быть, вот это как раз тоже проедет здесь можно рассказать.

Ну, на самом деле, простому желу я бы лучше потом рассказал там дальше в плане есть. А вот вопрос Жене про то, как можно бенчмаркать, насколько эффективно соединены GPUs, как бы я ответил на этот вопрос. Ты не можешь сделать высокую пропускную способность токенов в секунду. А дальше Nvidia потратил уже годы и миллионы, если не миллиарды, на оптимизацию своего софтвер стека.

Еще, кстати, наверное, можно добавить это правда больше про тренинг будет, но когда ты скешь свою модель с, например, одного миллиарда на сто миллиардов параметров, да, тебе приходится использовать все более и более сложные модели парализации. даних і самої вісов моделі

Потому что тебе в твоей команде нужны инженеры, которые даже не думают про то, как решить задачу именно бизнесовой тренировки, а думают только про то, как мне порезать мою модель, как мне направить данные, как мне потом это все собрать. Угу, блин. Сложный, сложный у вас мир. Много-много переменных. Окей, GPU, ты уже нам несколько раз сказал, что короче вообще прошлый век Лилия и не подходит. Нужны короче другие чипы, которые делают нормальные ребята.

Вы, Грок и вот эта третья компания, название которой я, к сожалению, не запомнил. Можешь немного вообще на пальцах объяснить, что это за чипы? Вот про Сереброс, все, что я знаю, это то, что вы делаете какие-то. Просто гигантские чипы. Вот, мне это когда-то впечатлило. Можешь поподробнее рассказать, наверное, про таксономию ия иных.

Чипов какие вообще существуют? Но я лучше всего могу рассказать про наш чип и дольше всего могу рассказывать про него. Но ты уже сказал основное, что мы делаем очень большой чип, на котором 44 гигабайта СРАМ. Напомню, что для сравнения на GPU- килобайты СРАМ. Соответственно, такой размер чипа нам позволяет максимально упростить все. Во-первых, одна модель порядка 80 миллиардов параметров просто может поместиться на один чип.

Потому что тебе вообще не нужно думать про то, как соединять кучу чипсов. Во-вторых, даже если это модель больше, мы можем просто соединить несколько чипов с помощью эдернета. И скорость при этом не будет падать, она будет оставаться такого же порядка. То есть в нашем мире нету трейдов между размером и скоростью. А можно вот тут немножко развернуть мысль про то, что ты сказал соединить с помощью обычного? RJ45- обычный сетевой кабель. Ну, я понимаю, что скорее всего нет. И это физически, ну,

Как это возможно? Позерну по зернату же есть какие-то ограничения. Сколько мы там можем передать трафика по проводу? И ну на чипе же стопудово скорость быстрее. Из-за того, что скорость между ними, ну, по-любому, должна быть медленнее, чем внутри чипа. Слушай, для меня, если честно, тоже это выглядит немного магии. Я не знаю, как наши инженеры это сделали. Но насколько я представляю, ты можешь просто.

В секунду ты берешь десять у тебя тысяч кабель в секунду. И вот тебе, пожалуйста, высокая пропуская способность. Окей. Короче, здесь можно на самом деле укопаться в глубину. То есть, мы сейчас сказали, что там большой чип, и можно там поговорить про то.

Вычисления, память и технологии интерконнекта

как вообще ваша архитектура позволяет радикально решить эти задачи, то что у нас как мы решили не так с GPU. Я бы хотел сделать небольшой шаг назад и все-таки у меня в голове пока до конца не разложилась по полочкам взаимнозависимость. Там с компьютера, допустим, і памяти. Потому что мы сейчас, опять же, говорим про то, что мы там делаем больше памяти, делаем больше пропускной способности.

А нет ли такого, что в какой-то момент одной только памяти будет недостаточно? Ну и тут я просто думаю про всякие мысленные эксперименты. Вот, допустим, берем- допустим, есть у меня чип, на котором у меня было сколько-то там вычислительных ядер, и сделали в два раза больше памяти. Смогу ли я дальше с такой же скоростью делать инференс или с такой же скоростью обучать модели? Или наоборот, у меня память не изменилась, а стало там в два раза больше ядер.

Короче, как вот эти две величины друг от друга зависят и зависят ли? Вообще, важно ли про это думать? Потому что звучит так, что оно же одно на другое влияет, особенно когда ты говорил про reinforcement learning, что нас там и то, и другое нужно. Короче, не влияет ли увеличение доступной нам памяти с высокой пропорционной способностью на то, что нам еще и нужно больше учительных ядер? Значит, отличный вопрос. Мысль. Компьютер важен только тогда, когда можно его загрузить данными.

Соответственно, если у тебя стало два раза больше компьютера. Но данных больше не приходит. У тебя по факту компьютер простаивает. В этом же кстати и большая разница между тренингом и инференсом. То есть, у тебя по факту всегда можно говорить говорить, что пиковая утилизация. Ответ на твой вопрос нет. Это очень сильно зависит от use case, про который мы говорим.

Давай еще, наверное, про интерконнект тоже, потому что мы его упомянули вкратце, но не совсем понятно, как он решается. Ну, то есть, вы, я понял, что в Cerebrus вы, по сути, по изернету там кабелями и все. Но я же знаю, что есть там в мире GPUшек, приходится выкручиваться по-другому. по-другому, там кто на что гораз.

Что вообще сейчас есть? Как сейчас решается эта проблема, там, где нет возможности сделать свой мегачип и кабель соединить с другими такими же мегачипами? На самом деле, наверное, три ключевых технологии сейчас- это Nvelink, Infiniband и Ethernet. Про интернет мы уже поговорили, он существует давно, а NB-Link — это технология, которая была разработана NVIDIA, и она по факту проводок, который соединяет две видеокарты друг с другом внутри одного сервера.

У них там очень высокая пропускная способность, но опять же осторожно, когда мы говорим о очень высокое, это никогда нельзя сравнить с тем, когда у тебя SRAM живет на чипе. То есть, у нас как устроено у нас вот на одном слой чип, а сверху, просто физически сверху, Лежит память, поэтому у тебя память в одном цикле доступности до компьютера. Да, любой инфини банд или инфилинк это уже провод, это уже...

Больше время, хоть и максимально быстрее, чем какие-то другие старые технологии. Возвращаясь к этому, NV-Ding соединяется две несколько этих карт внутри сервера, а InfiniBand- это уже про. Соединение между серверами. Технология, которая была не разработана, Nvidia, но купленно или лицензировано. Поэтому они, сейчас, такие монополисты на высокую пропускную способность внешней памяти.

Так, ну здесь тоже вроде разобрались, то есть нам нужно много памяти с хорошей пропускной способностью. Нам нужно по возможности посадить ее всю как можно ближе, и если она будет максимально близко к компьютеру, то будет у нас счастье.

Бенчмаркинг и метрики ИИ-производительности

Все будет работать хорошо. И тут, наверное, у меня вопрос: а что значит хорошо? Вот как. Берем мы, допустим, серебро, ваш чип. Берем мы какой-нибудь кластер там из кучи- там не знаю, видео, 50-80. Что вообще можно сделать, чтобы сравнить, кто быстрее и в каких задачах? То есть, тоже мы уже начали про это говорить. Я когда спросил про то, как мы это все можем измерить, но тут мне кажется, может быть же несколько разных измерений.

И мне самое просто простое, тривиальное, что приходит в голову, это просто посчитать таймером, сколько времени занялось, сделать инференс для кого-то одного и этого же запроса. Но мне кажется, это же суперрандомная штука. Как вы это делаете? Да, опять же, ответ. К сожалению, это зависит от East Case, и даже внутри инференса зависит от того, что ты хочешь оптимизировать. Ты хочешь оптимизировать количество параллельных юзеров, или ты хочешь оптимизовать скорость.

Ти можеш робити різні трейд-оффи, але давай почнути з більш широкого підходу. Все любят хвастувати своїми флопсами. Ну, во-первых, они часто пишут про спарс флобс, то есть, на самом деле, флобс для спарс-вычислений, то есть где много нулей, поэтому эти вычисления проще. Так что это в каком смысле завышенные цифры, если сравнивать с dense flops?

Во-вторых, эти флопсы даже неважно, Sparse Aldens, не имеют большого смысла, потому что, в зависимости от конкретной задачи, у тебя будет разная утилизация. Твоих чипов, да, мы про это тоже говорили. Нужно, чтобы компьютер не простаивал, нужно, чтобы максимально было оптимизировано, чтобы все янты были использованы. Это тоже зависит от задача, это тоже сложно. Поэтому флобс я бы не рекомендовал для использования просто чистый флобс.

Для сравнения, тем более, опять же, Флопс это только про компьютер, а мы еще говорим про память и пропускную способность памяти. Это не учитывается в этих маркетинговых презентациях. Потому что можно говорить про другие вещи. Какие метрики для инференса нам нужно смотреть? Вы бизнес, вы приходите со своей задачей- значит, как вам выбрать, идти?

К НИДИ и покупать более дешевый, но более медленный инференс, или идти к Сербиус, и покупать более быстрый и более дорогой. На самом деле важно метро котифти, Time to First Token. Сколько вы готовы ждать, пока не начнется ответ? Дальше важна скорость генерации, да, то есть как быстро приходят новые токены. Например, если вы хотите делать voice-bot, то вам нужно либо использовать модель speech-to-speech, и это- GPU работает быстро только если модели маленькие.

То есть получается вам приходится более глупые модели использовать, если вы хотите адекватную скорость. А на сервере у нас, например, такая высокая скорость у просто обычной LLM, Что мы можем разбить этот спич ту спич на спич ту текст, тексту текст и текст суспич? Вот это текст су текст это будет обычные лампы, ламы, что хотите.

И из-за высокой скоростью это будет работать. Более того, я даже сегодня общался с нашим клиентом, он сказал, что у нас работает быстрее, чем у GPU с end-to-end speech to speech. Плюс дополнительно у вас открывается возможность, поскольку у вас есть контроль над текстом, который говорит, вы можете еще дополнительно проверить, ага, а не сказала ли модель чего-то лишнего, что мне нужно убрать, перед чем как я буду произносить это клиенту.

Очень важная метрика- это токенс per minute, сколько токенов в минуту генерирует ваш сетап. Как вы эти токены дальше будете распределять между всеми пользователями, которые к вам это уже отдельная стратегия. Вы можете сделать очередь, в которой будут попадать запросы, и сидеть там, и вы будете отвечать. Если очередь заполняется, например, можно начать уже не принимать новые запросы. То есть, это throughput метрика TPM, токены в минуту- это очень важно.

Теперь, как это все связать с GPU или с Серебресом? Ну, довольно просто. Если у вас больше похоже на батч задачу, то есть вам скорость не очень важна. Но вам нужно запроцессировать много параллельных запросов, то вы можете идти к GPU. Это будет дешевле, это будет нормально работать. Но если вам важна скорость, а это очень хорошо работает для агентов и для генерации кода, тогда вам лучше идти к серебрусу и к этому другому быстрому провайдеру.

То есть сейчас я попробую тоже пофантазировать. Если я хочу сделать умный дом, что у меня есть камера, с камеры стримится картинка. Я картинку прогоняю через какую-нибудь модель. И модель мне говорит: у тебя чайник не выключенный стоит, или у тебя утюг начал дымиться, или что-нибудь еще. То это, вот, прям use case для Сереброса, потому что нам нужно быстро на самом деле, ну, практически в реал тайме, там, гонять какие-то данные и получать ответы от LM.

Ну да, я бы немножко даже усилил твой пример. На самом деле, реал тайм тоже бывает разным. Да, то есть для кого-то реал тайм- это лейтенсив несколько секунд. Но я сейчас говорю даже больше про лейтенсии меньше секунды. Почему? Потому что, если сейчас отойти от примера реальной жизни и снова вернуться в мир языковых моделей, есть так называемый inference-time компьютер. То есть, чтобы улучшить качество ответа модели, ты делаешь reasoning часть.

Этот резонинг, если вы зададите сейчас в OpenAI или в Джемини, они довольно медленные. Они всегда куча токенов, поэтому тебе приходится ждать с десяток секунд, может быть, минуту, пока не получишь финальный ответ.

Ты можешь это получить за секунду. Таким образом, reasoning- это super важный use case, а дальше ты уже можешь его использовать где угодно в твоем бизнесе. Либо ты хочешь делать это с агентами, которые будут- О чем-то думать, используя эти токены, потом делать действия, брать фидбэк из своего терминала или откуда угодно, сдавать его опять на вход LM и продолжать.

То есть, таким образом, если у тебя используется GPU, то у тебя из-за того, что куча запросов, там десять-двадцать запросов, у тебя получается. Все будет работать несколько минут. С нами это будет работать секунды. Понял.

Экономика, энергопотребление и обучение Cerebras

А ну тогда интересно, мы уже упоминали. Он Егор раньше говорил: а что тут у нас с электричеством, с энергопотреблением получается. Ну, то есть, насколько.

Это дороже получается, или вообще дороже ли, или может быть наоборот, дешевле, эффективнее, и в плане затрат на то, чтобы запитать все это добро. Да, давайте я начну с. Такого глобального ответа, что на самом деле сейчас уже большие компании думают про железо в терминах именно электричества: типа не мы закупим, неважно, десять или сто джипис, а мы закупим GPUs или серебряс чипы настолько-то. Мегаватт или даже уже гигаватт.

Для масштаба, понятно, что такое мегаватт и гигават, одна стойка DJX от Nvidia, в которой 72 GPU сидит- она потребляет примерно 120 киловатт. А мы вот, например, на прошлой неделе объявили сделку с Опен Ай, в которой они у нас закупили железо на семьсот пятьдесят мегаватт. То есть это очень большие цифры. А возвращайся уже к твоему вопросу. Ну, тут довольно простая экономика, да. Давайте немножко поговорим про экономику вообще инференса языковых моделей.

Со стороны бизнеса все выглядит довольно просто. Ты платишь за миллион токенов в секунду один доллар. И дальше ты можешь делать свой продукт, в котором ты будешь получать маршрут. Со стороны провайдера, как это выглядит? Тебе нужно платить за электричество. Тебе нужно учитывать амортизированную стоимость своего железа, плюс тебе нужно платить за место в дата-центре. Соответственно, если ты

Хочешь как потребитель купить себе железо? Тебе придется думать про все эти метрики. Тоже как ментальная модель, как вообще про это думать и из чего все складывается понятно. Но теперь мне больше интересен прикладной аспект, когда мы в итоге говорим про железяки, которые живут в дата-центрах. И мы сравниваем между собой, допустим, кластер GPU-шек, которые там каким-нибудь аннелинком общаются.

Скорее всего, там накладные расходы, в том числе на коммуникацию, потому что провода греются. И у нас в другом месте стоит условный чип Сереброс. Что мы можем в таком случае сказать про энергопотребление на токен? Но если вообще какая-то понятная ментальная модель дешевле или дороже, то получается вообще насколько производительней с точки зрения затраченного железа на какие-то токены- баш чип, например. Да, можно думать в этих терминах. И в этих терминах у нас более дешевое потребление.

получается на токен энергии, но тут действительно нужно просто посчитать, а мне нужно столько-то GPU, чтобы я смог захостить одну реплию. Да, то есть у тебя будет стокато GPU. Все, ты знаешь, теперь столько-то GPU тебе даст такой-то throughput, там токены в минуту. Вот, и ты знаешь, сколько у тебя будет потреблять энергии с вот этого качества GPUs. Ты сделаешь ту же самую математику с серебросом и сравнишь.

Вот важное замечание, да, что это может зависеть от, например, конкретной модели. То есть, какие-то модели могут быть более оптимизированы под нас, какие-то более под GPU. И этот throughput, то есть токены в секунду, будут меняться. Понял. Ну да, логично. Ну, то есть получается, что на самом деле энергопотребление- это не константный какой-то показатель, он еще и дофига зависит от этого. Ответ это всегда зависит.

Да, да, не ну тут туда, тут все сошлось. Ну, просто мне интересно, а там вы не измеряли, например, на каком-нибудь референсном ворклоуде? Ну, то есть взять какую-то задачу там плюс-минус детерминированную и посмотреть, сколько там ваш чип энергии потратит, а сколько там потратит какой-нибудь, не знаю, GPU, какая-нибудь референдум. Слушай, мы делали и ответ наш на навсегда лучше. Но это возможно немножко маркетинговать.

Да, и опять же, все-таки зависит от модели, зависит от визкейса. То есть, к сожалению, нет простого ответа. Приходится вот даже нам, когда мы говорим с клиентами, которые хотят. Они говорят: насколько вы лучше, чем GPUs? Мы говорим: А что вы хотите делать с GPUs? Потому что, например, мы можем вернуться на минуту к обучению.

Да, то есть в чем красота обучения на серебре? В том, что тут другая парадигма. Если в инференсе мы хотим всю модель положить на сам чип, использовать SRAM для того, чтобы хранить веса, да, если что, брать несколько чипов, то в тренинге. Мы разделяем чип с одной стороны, а для весов всей модели мы используем другой сервер называем его Memory X, который держит все веса. Вот получается, у нас тоже песа находятся далеко от чипа.

Вопрос: почему это работает? Если мы посмотрим на то, как устроено обучение в машинном обучении, то на каждый шаг нам нужно писать только одного слоя у нашего компьютера. Потому что мы можем делать? Мы можем взять этот вот номер X и из него стримить веса, слой за слоем.

На чип. Более того, если у нас несколько чипов, мы будем просто параллельно стримить одни тервеса на наши 8 чипов. Будем давать наши данные- неважно какого размера. И мы сможем посчитать на каждом чипе forward path и backward path. Когда мы посчитали, нам нужно на обратном пути просто, сделать просто Map-Reduse, согрегировать все градиенты и обновить веса на нашем внешнем сервере Memory.

Все. Таким образом, мы тоже очень упростили обучение, потому что у нас можно независимо скелет как компьютер, так и память. И у тебя будет линейно падать время обучения, если ты будешь увеличивать количество чипов, которые у тебя есть. Дополнительно ты можешь ничто не мешает тебе тренировать модель с одним триллионом параметров на одном чипе.

Поскольку технология сохраняется, ты будешь стримить один слой за другим. Понятно, что это займет кучу времени, но если ты хочешь заскелить, ты возьмешь в 100 раз больше чипов и у тебя время падет ровно в 100 раз. Тогда как если ты GPUs возьмешь в два или в три раза больше GPUs, то тебе нужно удумать: Ага, может, у меня там такой параллелизм, всякой параллелизм, как я буду все это соединять? Ты не можешь даже заранее предсказать, ну точнее, это сложно.

Насколько у тебя время будет улучшаться? Сами ты можешь сделать. Mm-hmm. 嗯哼 Насколько вообще оптимизация потребления электроэнергии сейчас является прям таким важным вектором оптимизации чипов? Насколько про это прям думают, думают как приоритет? Или скорее такие, да, вообще в целом, пока пофиг настроям атомных станций на фармменной энергии. Слушай, но есть на самом деле одна или две компании, которые производят железо. Я, к сожалению, не помню сейчас название, но они сфокусировались на этом.

То есть они сказали: ребята, мы не будем делать быстрый инференс, мы не хотим лучшие показатели, мы хотим гораздо дешевле электропотребления. То есть, в этом плане у нас еще рынок железа для AI не устаканился. Разные игроки приходят с разными задачами. Сейчас, пока они перешли к следующему вопросу, я понял, что у меня в голове был один момент, который я, может быть, не до конца понял и как раз хотел тебя уточнить. И я сейчас, может быть, скажу какую-то глупость, может быть, нет.

На самом деле вопрос был про то, что, вот, допустим, у нас есть чип, который. Ну, сейчас говорим про задачу инференса. У нас есть вот, например, один чип, который: Ну, мы же обсудили, что он там довольно хорошо с ней справляется. Он делает это все быстро. Ситуация, когда мы пытаемся максимально быстро сделать инференс для одного какого-то входящего запроса в Лмку. Versus, когда у нас один чип обслуживает

Сколько-то параллельных пользователей. То есть, у нас там сидят люди, нестого долбятся в чат-GPT или в клот, или куда-то еще пытаются себе там на вайп-кодить свои сайтики, и нам получается нужно за счет. Ну, допустим, одного железа запроцессить несколько параллельных, каких-то запросов. Короче, наверное, вопрос вместо того, чтобы задавать какой-то конкретный- я же ничего в этом не понимаю, поэтому я задам общий вопрос. Как вообще меняется вся вот эта...

Внутренняя экономика вычислений. Когда мы говорим: вот у нас есть весь чип. Он супер производительный, мы можем сделать на нем максимально быстрый инференс. Или когда у нас есть несколько параллельных запросов, которые обрабатывают вот этот один физический чип, и нам нужно как-то их там, не знаю, шеддулить. Как это вообще устроено? Сколько это?

Насколько правильно про это думать именно так, или как-то по-другому шедевлится работать? На самом деле, это абсолютно правильный вопрос. Даже SEO Nvidia Енсен выступал со слайдом про это на одной из презентаций, где такой был график, там, типа, высокая скорость, маленькая картина. Какаш правильных юзеров и куча правильных юзеров маленькая скорость и правда где-то посередине, да?

Давайте немножко заглянем снова внутрь железа. Вообще, как устроен трейдов? Тебе нужно держать в памяти веса модели, но также тебе нужно держать в памяти активации KV Cash. Соответственно, чем больше у тебя параллельных пользователей, тем больше у тебя будет занимать памяти. Если у тебя всего один чип, то тебе придется жертвовать скоростью. Если у тебя всего один юзер, то у тебя больше свободной памяти. Вот, поэтому ты можешь увеличивать скорость. Угу, угу. Так, ну тут. Вроде понятно.

У нас по факту есть трейдов между concurrency и скоростью и он достаточно прямолинейный. Безхитростной. Ну, там, опять же, все в нюансах, да. Я бы сказал, что ключевое понимать твой use кейс, какие у тебя будут юзеры. То есть, сколько у тебя будет юзерев и насколько тебе важна скорость. Понял. Тогда, не знаю, тут может быть я смогу вопрос задать.

Бизнес-модели и будущее ИИ-приложений

Совсем выйдет за пределы железа. На самом деле, мне тебе интересно про бизнесовую часть. А вот когда ты говоришь, что нужно понять, кто у тебя юзеры, кто типичный юзер Фреброс, например, это большие компании, типа Опами, я и Клода. или кому-то, кто делает просто свой там собственный какой-то частный бизнес и хочет там крутить не знаю просто локальную модельку на своем собственном железе тоже по каким-то причинам может быть нужно

Да, супер вопрос. Ну, на него несколько ответов. Во-первых, быстрый инференс открывает просто некоторые юз-кейсы, которые были невозможны с обычными GPUs. Я уже упоминал про voice, я упоминал про код и про агентов. Это уже не секрет, поэтому ты, как девелопер, можешь сидеть и условно кодить, не отрываясь. Ну, вайп-кодит не отрываясь. И тут немножко меняется парадигма. То есть, сейчас ты поставил ушел пить кофе на 3 минуты, вернулся. Ты уже потерял контекст, тебе снова нужно вникать.

От тут ты можешь не отрываться и кодить-кодить-кодить. Блин, ну убьете все эти замечательных вей-кодеров, которые по 8 параллельных сессий запускают. Нет, наоборот, ты сможешь запускать по 8 параллельных сессий просто с быстрым инференсом. Блин, ты не будешь успевать переключаться. Не, ты просто задача перестанешь ставить из серии- поправь мне файл, начнешь говорить: сделай мне, пожалуйста.

Бэк-энд весь. Make no mistakes. Да, на самом деле, это то место, где можно пофантазировать, куда идет индустрия. Если сейчас ты запустил агента, он поработал, а ты проверил через минуту, ага, надел ты ошибок или нет, то теперь можно представить, что давайте будем запускать агенты. Да, там на 5 часов, на 10 часов. Да, чтобы они как раз таки могли сами проверять, насколько они хорошо делают, использовать кучу инференс-тайм.

Компьютер, да, с помощью резининга и прочих, и потом тебе выдавать результат через 5-10 часов, уже скорее всего хороший, потому что они потратили так много времени. Но 5-10 часов все равно долго. Поэтому здесь ты можешь использовать быстрый inference и получать тот же результат за полчаса или за час, но который как бы эквивалентен 5-10 часам работы на GPU.

Я почему-то представил, что сейчас я, сидя с клод-кодом у себя дома на своей личной просто подписке, дешманской там часок могу по вайб-кодить, а потом мне говорит: Сори, у тебя лимиты закончились, либо переключайся на. тарификацию за токены либо там жди, Сейчас получается, я смогу делать все то же самое, но за 10 минут, выжигай все свои лимиты. Больше времени на себя.

Отлично, отлично. На самом деле нет. Мне надо научиться работать менее продуктивно, чтобы я не успевал выжигать токи на до момента, когда сбросятся лимиты. Ну ладно, это все шутки. Тогда тут понятно? У меня еще есть несколько вопросов уже конкретно про сереброс. Мне кажется. До этих вопросов, короче, я где-то ближе к началу выпуска. Спрашивал про то, а какие вообще яйные чипы есть.

И ты с понятное дело, ты можешь больше всего рассказать про Сереброс. Про это сейчас еще поговорим. Но можешь вообще дать какой-то обзор поверхности, какие другие чипы делают и чем они отличаются. Потому что, опять же, есть вот те компании, кого ты назвал. Есть Google со своими TPU, есть там Amazon, который. делает что-то свое амазоновское. Вот вообще.

Что происходит? Какой-то общий обзор. Да, давайте. Я могу рассказать вам два слова про грок, про самбо нову и погадать, про то, как построены другие. Значит, грок выглядит совершенно по-другому. Во-первых. Они тоже сделали ставку на SRAM. Но их чипы выглядят довольно маленькими и у них мегабайты, по-моему, если не ошибаюсь, 230 мегабайт на одном их LPU, который они тоже собирают соединять друг с другом. У них получается относительно быстрый инференс, но он

То есть это быстрее, чем GPUs, но не настолько быстрее, как мы. Как устроен Грок? Там жестко зафиксированы data flow. То есть не инструкции бегают по данным, а данные текут по скомпионированному графу. Это совершенно другая парадигма. Мне понравилась аналогия, которую я прочитал. Потому что представьте, у вас есть город и по нему ездят машины. Да, чтобы регулировать трафик, нужно ставить светофоры. Да, красные писта зеленый поехал.

Но если ты знаешь, в какой момент каждая машина выйдет из своего дома и поедет на работу, то ты заранее можешь так прочитать, чтобы машины не останавливались на стефорах, но при этом не выражались друг к другом. Вот это то, что они сделали. Со своим чипом. У Самбо Новой, если честно, это Немножко уже аутсайдер рынки про них много не говорят. Но они сделали чип, который можно как-то перепрошивать под конкретный ml graph.

У них все равно есть разные иерархии памяти L1, L2, L3. Насколько я понимаю, у них больше свободы в том, чтобы помещать большие модели в то же количество чипов, что и маленькие модели, скажем. У нас чем больше модель, тем больше нужно чипов. Помимо этих двух есть, как я уже говорил, другие- ТП, я сказал, Amazon, OpenAI делают свои чипы. Если честно, я не знаю, как там технически это устроено, но.

Мораль, наверное, в том, что нет универсального правильного ответа, как делать и чтобы выиграть везде. Это зависит от того, что ты хочешь оптимизировать, это зависит от того, какой у тебя юс. Окей. Ну, смотри, если смотреть сейчас на рынок и на индустрию.

Будущее GPU, CUDA и дилемма Nvidia

Все-таки можем ли мы сказать, что в ближайшие годы вообще использование GPU-шек для инференса я и в целом умрет? Условно говоря, можно шортить инвидео, а геймерам наконец-то дадут видеокарточки назад. Или все-таки нет? И вот эти кастомные яиные чипы- это какой-то узкий сегмент. Отличный вопрос. Для тренинга все довольно проще. Как я уже говорил, есть два принципиально разных кейса: когда у тебя много токенов идет на input и мало на output.

Здесь ты можешь использовать GPU, потому что это будет сильно дешевле. А скорость не так важна, потому что у тебя всего лишь там пять, десять, сто. Токенов на аут. Если у тебя много токенов на аутпут, как, например, в резанинге, тогда тебе уже нужна высокая скорость. И там GPU никогда не смогут быть в конкуренции с другими чипами. Ровно поэтому, кстати, Nvidia месяц назад объявила о покупке Грока. Это формально не покупка, но на самом деле они забрали технологию.

Таким образом, Nvidia в принципе признала, что да, GPU не закрывает. Юс кейс быстрого инференса, поэтому нам нужна технология, и GPUs никогда этого не достигнут. Вот, на самом деле, это очень хорошая новость для индустрии. Ну, для нас, по крайней мере, это валидируется. То, что use case быстрого инфраструктура, он реально нужен. Но опять же, учитывая, что сейчас на самом деле, как будто бы это масштабирование рантайм компьютера, короче, давать модели.

Моделям больше времени на инференс, это как будто бы сейчас. Единственный нормально работающий способ улучшать качество работы Я, и как будто бы тренд в том, чтобы давать моделям больше и больше и больше и больше ресурсов для того, чтобы они подумали и чтобы резанинг отработал. Как будто бы это как раз таки моя чита о том, что доля таких кастомных чипов должна только расти.

Окей, это я понял. Получается, и получается основное преимущество, на самом деле, основная защита Nvidia на этом рынке- это та самая гора написанного софта и монополия на Куду. На самом деле, правильно я рассуждаю? Ну, не надо забывать, что куда нужна только в мире GPUs. Например, у нас куда не нужна. Потому что в плане тренинга мы сразу встречаем девелопера на уровне Пайторча, а под капотом уже наши серебровские языки, ассемблер и так далее.

Нам приходится писать свои кернилы, и это минус, потому что таким образом у нас поддерживается не 100% пойторча, а А там девяност девять. Вот а у НВД уже все написано. И более того, все ресерчеры, даже неважно, инженеры, которые что-то делают, они сразу делают под GPU. Просто поскольку это монополист, который на рынке 30 лет, в этом плане нам приходится догонять.

Для меня есть вопрос, пока что в другую сторону, быстрый. Я понимаю, что, скорее всего, надо задавать не людям, которые сидят здесь, а людям, которые сидят в Nvidia. Но мне просто любопытно, может быть, у тебя есть мне не на этот счет. А как так вышло? Ну вот. Nvidia- компания, которая на рынке уже миллион лет. Они на чипах, по идее, собаку съели, у них уборщика спросил: он, скорее всего, может там спаять все, что угодно и сделать свой собственный чип.

Компания, которая скажет, что там надо делать кастомные чипы. Вот, пожалуйста, у них и производственные мощности, и ресурсы, у них все должно быть, и бабки есть. Как так вышло, что вроде как всем уже стало понятно, что GPU. Не подходят для всех кейсов. Есть кейсы, за которыми будущее, которые GPU сейчас не решают. Nvidia сидит и продолжает клепать 30, 80, 40, 80, 50, 80. Вместо того, чтобы сделать и задизайнить свой собственный условный серебро. Они просто покупают другую компанию.

Ну, это же стандартная такая дилемма инноваторов. У тебя в большой компании, условно говоря, вся производственная цепочка заточена под то, чтобы производить какой-то определенный товар. Это и дизайн, и производство, и поставщики, и покупатели. И взять это.

И махом переделать под какие-то другие чипы на довольно узкий сегмент, довольно сложно, довольно дорого, и ты начинаешь дергаться только тогда, когда уже ниша выросла, а ниша выросла в тот момент, когда ребята типа Сереброса игрока уже что-то сделали. Сделали и начали продавать. Вот, но это мое мнение. Да, это валидное мнение. Я добавлю к этому то, что как мы с вами уже обсуждали весь подкаст, технологии настолько разные.

Что даже если ты Nvidia с миллионом лет опыта, ты по факту будешь как новичок начинать. Если ты хочешь думать про чип размера с тонков, то. Тарелку, то у тебя будут возникать просто физические проблемы, которые нет на маленьких чипах. Приведу пример у нас на чипе девятьсот тысяч ядер. И представим, что ты делаешь какое-то полезное вычисление в левом нижнем углу твоего чипа. Окей, если ты оставшиеся ядра оставишь без всего.

То у тебя левый нижний угол начнет нагреваться, и как следовательно, чип начнет искривляться. Это плохо. Ты не хочешь, чтобы твой чип искривлялся. Поэтому тебе нужно делать какие-то вычисления на... Если ты начнешь это делать со своей старой технологией, ты вопрос в эти проблемы. Поэтому все нужно делать с нуля. Ровно поэтому они сейчас купили игрок, да, то есть они решили, окей, ребята, это слишком долгое и сложное дело, давайте мы лучше возьмем готовый продукт.

У меня еще в голове аналогия возникла дурацкая, что вот у меня в машине рядный шести цилиндровый двигатель, и его основная проблема в том, что самый дальний цилиндр перегревается больше, чем все остальные, поэтому в какой-то момент двигатель начинает вести. Я подумал, что. Любопытная аналогия, хотя и не связан, например. Окей, тогда сразу вопрос, раз уж мы тут про индустрию заговорили и там про чипы и все, что с ними связано.

Глобальный дефицит чипов, производство и B2B рынок

А что там вообще с нехваткой чипов-то? Потому что все говорят, что все, все капец, не успеваем делать столько чипов, сколько нужно, как оно на самом деле. Да, на самом деле я недавно сделал мем, что скоро Земля превратится в один огромный дата-центр. настолько большой спрос на чипы и именно растет спрос на inference. То есть сейчас хотят все, во-первых, большие игроки, типа OpenAI, Гугла, они видят все больше и больше запросов на AI. А понятно, что либо мы условно делаем готовим AI.

Это обучение, либо мы используем Ай. Сейчас все хотят использовать АИ. Все эти большие игроки, по факту, у них есть выбор- либо покупать у Nvidia. Либо покупать у альтернативных игроков. Понятно, что Nvidia- это первый вариант, потому что они существуют на рынке миллион лет, и все их знают и так далее. Но, соответственно, у них они Просто не хватает чипов, и заказы идут уже на год, если не больше вперед. Таким образом, игрокам поменьше труднее, еще труднее становится получать эти чипы.

Интересно, кстати, что буквально вчера Опеняй выпустил блог про. В котором он тоже написал, что капасити чипы нужны еще больше и будут нужны еще больше. Потому что мы дифицируем наш портфолио, да, закупаемся не только инвидий, закупаемся в других. Я тут, наверное, не до конца понимаю, а не хватает, потому что большой спрос и текущие производственные мощности условных.

Условные Nvidia просто не позволяют производить достаточно, но при этом там ресурсы, которые для этого нужны, их хватает. Поэтому, допустим, у вас нет таких проблем, или это там какая-то общая глобальная ресурсная проблема- редкостьемельные металлы. В мире железо. Относительно мало компаний, которые его производят. Да, и когда мы говорим производство, это и про проектирование.

И про непосредственно собирание, да. И собирают это примерно 2-3 компании в мире- то есть SMC. И если Пришла сказал, что мы хотим миллион наших чипов. В той Ю Ти СМС просто не будет пропускной способности производить другие чипы, поэтому приходится ждать. То есть везде проблема пропускной способности. Вот, да. Одни не успевают производить там

Память не успевает идти к компьютеру и так далее. Красиво, красиво. Мы закольцевали метафору, начали с пропускной способности памяти, закончили заводами. Давай еще добавлю про то, что то есть мы говорим просто про чипы для einference, но. Даже более узкой дирам на рынке уже. Тоже цена выросла в несколько раз за последний год. Потому что там OpenAI забукал сорок процентов просто мирового дыра. И Nvidia он тоже нужен, он всем нужен, потому что он нужен в телефоне, в компьютеры.

Вот і даже такої історії з індустрії, што там. Гугл, так сказать, опоздал на эту гонку, потому что там какой-то ответственный экзек про это не подумал, и его в итоге уволили. Ну ничего, в новостях пишут, что PNIAI потратит все деньги где-то к 2027 году. Последнего прогнозу, так что они обанкротятся и надеюсь раздадут обратно все карточки и память. Еще раз я хочу бабайкой про эту противную память поделиться.

Почему я вначале сказал то, что сети гады оставили нас без Half-Life 3? Там же в чем история была, что Valve планировал выпустить новую консоль под названием Steam Machine. Короче говоря, Steam Deck, который ты можешь подключить к телевизору и радоваться и играть. И короче, абсолютно все инсайдеры были уверены, что одновременно с анонсом Steam Машин представят также и Half-Life 3. Вообще, все.

Куче утечек, все про это говорило. В конце прошлого года должно было случиться. Что случилось в конце прошлого года? Оператива подорожала. Мечта Гейба о том, что сейчас выпустим дешевую ПК-бейст-консоль в каждый дом за разумную цену, тоже пропала, потому что оперативочка стала дорогой, не вышла с Team Машин. Нет смысла выпускать Half-Life, потому что зачем это надо, если не для промой. На новой консоли. Вот так и живем. Проклятый мир. Очень проклятый.

Так, с нехваткой чипов тоже разобрались. Вроде стало понятно. И у меня, наверное, еще один вопрос в голове на самом деле остался. Конкретно уже про Сареб раз, потому что ты сейчас упомянул, что на самом деле в мире несколько там всего компаний занимаются непосредственно- вот как это сказать, манфакторингом, то есть, производством, именно. Короче, сборкой, да, то есть, именно физически.

Правильно понимаю, что в вашем случае тоже плюс-минус так и есть. То есть, у вас ваши инженеры проектируют, и где-то кто-то на аутсорсе, по сути, эти чипы там печатает, грубо говоря. Да, примерно так и происходит. То есть мы проектируем. В другом месте печатают, а потом тоже именно сервера собираются уже либо нами, либо какими-то подрядчиками. Но именно производство типов, как вот

Физический процесс- он всегда аутсорсится. Просто на это нужны машины, которые стоят сотни миллионов, если не миллиардов, и 5 нанометров- 3-2 намено. Это очень сложная технология. То есть там такая. У меня, собственно, был вопрос: если такая большая проблема с продуктом способностью, то кажется, напрашивается идея для бизнеса.

Пойти взять кредит и сделать компании, которая печатает чипы. Но, короче, это сверхтехнологическое оборудование, которого, наверное, тоже так просто не сделаешь, да, но все там. Да. Суперкостомные все эти мануфакторы они сами его себе делают, наверное. Да, да, да. Это очень сложная задача, особенно сейчас. Прикладной вопрос: Представим, что я хочу у себя дома собрать. Какую-то коробочку, в которой будут какие-то чипы, которые позволят мне гонять самую мощную open source модель.

Которые только сейчас есть, для того, чтобы, я не знаю, мне агентов запускать на своем сервере, а не ходить и не платить за такены, как там бедный Женя делает. Какие вообще, что мне стоит под такой use case покупать? Стоит ли мне все еще идти, не знаю, продавать почку и покупать питок GPUшек? Или я могу себе купить какой-то кастомный чип тоже из своего личного почка? Пользования. Вот что короче.

Смотреть для того, какого ю-кейса, где вот как раз где нужен инференс, где много резанинга. Да, но на самом деле, скорее всего, чтобы купить кастомный чип, тебе придется продать все две почки. Вот. Так что лучше все-таки покупать GPUs. Еще дополнительно скажу, что Мы уже мы уже это обсуждали, что все растет, растет деман, поэтому просто некоторые кастомные чипы идти все B2B, не будут идти в интерпрайс, они не будут идти там.

Вас и петь на рынке, потому что проще продать много чипов интерпрайзу, чем один или два на ритейле. Так что, Егуар. Ты понял, будешь такой же, как я. Никаких тебе кастомных чипов. Ну окей, верю все еще, что будет спрос, будет предложение, появится какие-нибудь ребята, которые будут для простых работяг собирать домашние сервера. Все может быть.

Модели услуг, ПО и ограничения Cerebras

У меня наш вопрос в другую сторону. Ты уже на него частично ответил. Я хочу убедиться, что я все правильно понял. То есть, у вас кастомное железо, собственные чипы. А при этом ты говоришь, что вы уже на уровне, где-то там на низком уровне. Все это заточили под обычный PyTorch, какой-нибудь, например. На высоком уровне. Ага. То есть, правильно понимаю, сейчас, ну тут, наверное, надо начать вообще с того, какие модели оказания услуг у вас есть. То есть, вы же, наверное, можете кому-то просто.

Что вы можете предложить? Потому что я предполагаю, что наверное можете продавать непосредственно чипы. Вы можете эти чипы сдавать в аренду, как ну просто какой-нибудь там Хайснер сдает железо, также вы можете сдавать железо. Или вы, наверное, можете представлять какие-то облачные услуги. Да, давай, наверное, с этого начнем, а потом свой вопрос. Продолжение следует...

Как интерпрайс и сказать Слушайте, у меня тут своя модель, которую я хочу захостить, но я не хочу возиться с самим железом. Давайте вы в своих дата центрах захостите. И ты можешь прийти к нам как какой-нибудь банк и сказать, слушайте, я вам не доверяю, что вы будете делать с моими данными. Давайте я куплю ваши чипы и установлю себя. Data centrach. Понятно, что все это стоит разное количество денег. И мы уже смотрим, смотря какой use кейс. Да, я сейчас залез вам, как раз в раздел.

Прайсинга у вас на сайте. Вижу, что за 50 баксов в месяц на тарифе про можно получить топовые опенсорсные модели до 24 миллионов токенов в день. Идеально для инди девов. Осталось узнать, сколько токенов в день я трачу, на самом деле. Это мы оставим потом. Это мы потом обсудим в чате с дорогими друзьями. Делитесь, кстати, сколько вы токенов жжете, любопытно узнать, кто у нас там самый упоротый.

Окей, смотри, тогда вопрос могу, собственно, свой продолжить. Возвращаясь назад. Я тот самый самый душный кастемер, который говорит: Не-не-не, я не знаю, что вы там будете делать, продавайте мне свое железо. Вы ему продаете железо, он ставит у себя в дата-центр. Что он потом с ним дальше делает?

То есть, не знаю, ставит Linux, запускает PyTorch, и все работает, или нужно какие-то там кастомные драйвера. Я предполагаю, что там есть своя какая-то прослойка софта, которая нужна, чтобы все это завелось. Да, конечно, на самом деле, когда мы доставляем наши чипы, мы не просто доставляем чип, мы доставляем стойки, в которых уже несколько серверов, юзерноут и так далее. Там на юзер-ноте живет обычная Unix-система, которая подключена непосредственно к чипам, то есть к акселераторам.

Вот. И там есть разный софт, который позволяет тебе менеджеровать твой кластер. Например, можешь для тренинга использовать SLARM. Да, что если у тебя юзеры будут подключаться, как менеджить их задачи. Для инференса там другой софт. Но в целом концептуально ничего не будет отличаться от Nvidia или любой другой компании с железом. У меня просто в голове есть какая-то такая ментальная модель,

Что там, не знаю, компиляторы, там это все очень сильно оптимизировано под разные процессы архитектуры. Там, не знаю, вплоть до того, что есть собственный C на компилятор, который под Intel вообще очень бодро шарашит, а тут мы говорим про абсолютно кастомный чип. Который вообще никого отношения ко всему этому привычному не имеет, и внезапно все работает. Легко и без страданий. Ну, на самом деле, и да, и нет. То есть, есть все эти низкоуровнями слои.

Который, как и у Intel, костерные компилярты, и так далее. Просто тебе не нужно на это счет париться. Что тебе нужно, да? Ты хочешь использовать PyTorch для тренинга, используй PyTorch. Если так окажется, что не хватает какого-то кернила, да. Ну, либо сам его напишешь, либо нам скажешь: Вот. Для инференса тебя интересует только верхнего там сервер, который будет крутиться, и он будет OpenAI Compatible, и ты будет.

Мочь понимать твои вопросы. То есть, опять же, тебе не нужно париться с тем, что под капотом. Угу, угу. Окей, окей. Мы тут в фоне еще с Егором обсудили его потребление и выяснили, что двести пятьдесят тысяч токенов в день. Так что, Егор, подумай, что. Подожди, у тебя сколько покажи. А это мы узнаем, дорогие друзья. Потом в чате. Я сейчас не буду открывать свой код-код, потому что я просто не хочу отвлекаться от выпусков. Понятно, понятно. Що посмотрю, код линее.

Ну, вообще, я недавно, я в последнее время много вейп-кодил, так что меня, может быть, там Не знаю, не буду гадать, потом в чате давайте обсудим. Так, а мы-то на самом деле как будто бы все почти что и обсудили. И у меня, наверное, остался один-единственный вопрос. Когда мы говорили конкретно про Серебро, просто раз уж мы все-таки фокусировались на нем. Потому что ты там работаешь, стало понятно, что вот ваша архитектура с огромным мега чипом и большим количеством скоростной памяти.

хорошо помогает вам делать как раз таки быстрый инференс понятно почему мы об этом целом говорили в весь выпуск какие есть у этого всего минусы есть ли какой-то абсолютно очевидный минус такой архитектуры который там понятно, что вот инфуэнс да, а все остальное нет.

или это инструмент под конкретную задачу, а для других его использовать. Это как микроскопом гвозди забивать. Я в начале выпуска сказал, что мы делаем три вещи. Обучение, inference и HPC. Мы эти вещи делаем Хорошо, но та цена, которую мы за нее платим, то что нам приходится разрабатывать все от железа до всего софта и низкого уровня, верхних уровней. Штуки. Поэтому, например, часто модели, которые выходят опенсорсные. Oni optymizowane po GPUs.

То есть там делают линии ратеншен, чтобы специально меньше памяти занималось на GPU быстрее считалось. Эти архитектуры- не факт, что будут лучшими для нас. Потому нам, так сказать, приходится немножко идти против течения. Да, течение- это Nvidia, и там куда, кернила, и все, что хочешь. Да, а мы говорим: heй! Мы хороши, мы лучше, но нам приходится все делать самим. Понятно. Ну да, это в целом понятно. Трудов. Я почему-то думал, что есть там, знаешь, какие-нибудь.

Технические трейдеры, что там какие-то ворклоуды работают не так. А потом понял, что типа буквально чип сделан под конкретные задачи, и эти задачи он конкретно хорошо решает. И вы за это скорее расплачиваетесь организационно, что все нужно делать самим, и мало на что нужно полагаться. Ну да, звучит логично.

Заключение: Итоги обсуждения аппаратного ИИ

Так, ну на самом деле, мне кажется, на этом-то мы можем и подводить черту. Давайте вкратце вспомним, о чем мы сегодня говорили. Мы сегодня говорили про хардвер или железо для AI. Мы начали с того, что обсудили, какие вообще в мире железяк есть ограничения, то есть там память, компьютер, интерконнект, электричество, где у нас там чего не хватает, во что мы все упираемся.

И потом уже начали говорить, почему, собственно, GPU-шки- вот эти все наши с вами любимые видеокарты, на которых так прекрасно играть в киберпанк, в 4К с рейд рейтингом, со всеми делами. Почему жадные капиталисты у нас их непрерывно воруют для того, чтобы гонять искусственный интеллект? Но на самом деле GPU-шек уже не хватает. И почему, собственно, нужно какое-то другое железо, которое будет устроено как-то принципиально по-другому, чтобы решать те задачи, которые GPU?

Вот, собственно, мы разобрались, какие задачи GP решает плохо, почему это именно так, и как архитектуры. других хардверных решений, таких как Cerebros, про которые мы сегодня говорили больше всего. Как они вообще помогают делать тот же самый инференс намного быстрее? Чтобы опять же, когда вы сидите в своем код-коде, он не тупил по 2 минуты, а за 15 секунд выдавал вам хороший резонинг и еще и переписывал пол проекта.

Ну и попутно поговорили, собственно, про то, как это вообще сейчас все устроено, какой там текущий ландшафт, кто чем занимается в этой всей индустрии, какие там есть способы все это дело померить. Ну и чего вкратце происходит в мире сейчас с. Индустрии в плане недостатка чипов, кто там что пытается делать. И так далее. Зикрет, спасибо большое, что ты к нам пришел. Мы сегодня немножко развеяли туман войны над всей этой историей. Лично мне стало.

Как всегда, чуть-чуть понятней. Я для себя вывел хорошую метрику того, классный выпуск или нет. Если я узнал что-то новое, для меня какая-то ментальная модель в голове обновилась. Значит, все было не зря. И сегодня для меня это ровно так и произошло, потому что я вообще не понимал, нафига нужно кастомное железо. Сейчас у меня по полочкам все разложилось, все стало понятно. Спасибо, что.

Поделился. Супер, спасибо, ребята. Женя и Егор, что позвали на подкаст. Был рад перед своими своими знаниями и обращаюсь к слушателям, если у вас есть какие-то свои реальные. Да-да, и мы все ссылки от Зигфрида предложим в описании выпуска, так что вы, естественно, все найдете и сможете написать. Да. А тем временем, Женя, можно ли задать тебе вопрос? Да, конечно.

Что тебе нравится больше, чем к концу этого выпуска, понимать, что Cerebros это не организация из-за масс-эффекта, пропагандирующего превосходство человеческого разы над всеми остальными, а крутые ребята, которые делают просто огромное... Нереально большие просто жесть, какие крупные чипы. Вот такой чип- тарелка. Больше этого, дорогие друзья, мне нравится, когда ваш инференс работает быстро.

Ваши видеокарточки делают рейдрейсинг тоже быстро. А пока вы заняты всем этим веб-кодингом и рейтрейсингом, вы в это время еще и слушаете подкаст-подлодку, смотрите на нас на Ютубе. Пишите нам комментарии, приходите к нам в телеграм-канал и в телеграм-чат и пишите свои комментарии там. А самое главное- слушайте нас. Каждый день и рассказывайте о нас своим друзьям и коллегам. С вами был Покаст Подлодка. Мы сегодня говорили про AI хардвер. Всем спасибо и всем пока-пока.

This transcript was generated by Metacast using AI and may contain inaccuracies. Learn more about transcripts.
For the best experience, listen in Metacast app for iOS or Android