Николай Голов, Николай Марков, Филлип Уваров: Big Data is Dead - podcast episode cover

Николай Голов, Николай Марков, Филлип Уваров: Big Data is Dead

May 15, 20231 hr 2 minSeason 3Ep. 29
--:--
--:--
Listen in podcast apps:

Episode description

#bigdata #dataengineers #dataanalytics #duckdb #postgresql 


Встретились обсудить недавно нашумевшую статью от ребят из Mother Duck - Big Data is Dead. Обсудили, как правильно использовать данные, чтобы получать действенные результаты, и ребята поделились своим реальным опытом. Также мы рассмотрели, какие проблемы возникают при работе с большими данными и как их можно решить. Мы ответили на вопрос, существует ли еще "big data", и зачем сейчас нужны дата-аналитики. Еще разобрались в 3х V - Volume (объем данных), компрессия DuckDB, кластерные облачные базы; в Velocity (скорость поступления данных), стриминг, шины, in-memory databases (DuckDB); в Variety (изменчивость данных).


Канал с анонсами https://t.me/megdu_skobok

Ламповый чат https://t.me/backend_megdu_skobkah

YouTube https://youtu.be/Z9c7YBZ2BHs


Полезные ссылки

📖 Hannes Mühleisen - DuckDB, an in-process analytical DBMS https://youtu.be/Z-6SnP6yzgo

📖 WHY USE DUCKDB FOR ANALYTICS? https://motherduck.com/blog/six-reasons-duckdb-slaps/

📖 Big Data is Dead https://motherduck.com/blog/big-data-is-dead/

📖 RTB (Real Time Bidding) https://rtb-media.ru/wiki/

📖 ClickBench — a Benchmark For Analytical DBMS https://benchmark.clickhouse.com



00:00 Приветствие 

02:20 Что такое Big Data, volume, value, variety, velocity, and veracity

03:30 Объемы данных в Spotify 

05:14 История появления понятия Big Data

06:12 Big Data explosion

12:33 Что такое BigQuery

14:12 Аналитика данных, дата сеты для обучения моделей 

17:35 Эксперимент с инвертирование данных для дата сетов 

20:17 Актуально ли сейчас учиться аналитике данных

22:03 OLAP vs OLTP

24:19 Резюме по Volume

25:30 Определение Velocity

27:34 RTB (Real Time Bidding)

29:53 Резюме по Velocity

31:42 Пример систем, где нужна real time аналитика

33:27 Определение Velocity

36:22 Пример использования DuckDB

38:30 Почему коллоночные базы такие быстрые, векторные операции 

42:20 Война бэнчмарков, почему компании привирают, public relations 

44:04 Определение Variety

56:23 Будущее работы с данными 

58:00 Какая судьба у Vertica в мире дешевых и хороших инструментов

59:09 Что быстрее Spark или DuckDB

Николай Голов, Николай Марков, Филлип Уваров: Big Data is Dead | { между скобок } podcast - Listen or read transcript on Metacast