500₴
Практический курс по Big Data 2023. Все части Алексей Драль
500₴
Характеристики товара:
| Состояние | Новое |
| Для | взрослых |
| Вид | Курс, Лекции |
| Язык | Русский |
Доставка: по городу, указано в объявлении | Киевская область, Вышгород | Актуально на: 31 октября 2025
Информация о продавце
Premium магазин
"Мой магазин"
Premium магазин
"Мой магазин"
Регистрация: 26.02.2016
Заходил(а): 01.11.2025 (09:03)
Заходил(а): 01.11.2025 (09:03)
Откуда: Украина, Киев
Разделы Premium магазина:
Здоровье Психология Астрология Кондитерка Дети Спорт, фитнес Красота Бизнес Иностранные языки Животные Отношения Продвижение Рукоделие Кулинария Интерьер Мода и стиль Эзотерика
Подробное описание: Практический курс по Big Data 2023. Все части Алексей Драль
Для заказа пишите сюда, в viber или telegram +380683490263После оплаты отправляю ссылку на сервис хранения файлов с курсом. Доступ постоянный. Можно смотреть онлайн или скачать себе.
________________________________________
Вы научитесь работать с распределенными файловыми системами, познакомитесь с экосистемой Hadoop, разберетесь с оптимизацией MapReduce
вычислений и работой с Hive.
Часть 1. HDFS, Map Reduce, Hive
В этом модуле вы изучите:
вводная часть: знакомство (задачи, оценки, дедлайны), подробности курса;
распределенные файловые системы (GFS, HDFS). Их составляющие, достоинства, недостатки и сфера применения;
чтение и запись в HDFS. HDFS APIs: Web, shell.
Hadoop Streaming;
элементы Hadoop-задачи (Mapper, reducer, combiner, partitioner, comparator).
приложения с несколькими Hadoop-задачами;
тюнинг Hadoop-job (настройка партиционирования, сложные ключи, uber jobs);
задачи с несколькими входами. Joins в Hadoop.
архитектура Hive, виды таблиц, форматы хранения данных;
трансляция Hive-запросов в MapReduce-задачи;
сериализация и десериализация;
тюнинг Join´ов в Hive;
партиционирование, бакетирование, семплирование;
User defined functions, Hive Streaming.
Часть 2. Spark: from zero to hero
На протяжении этой части курса вы будете работать со Spark: от основных
терминов и RDD до Spark DataFrames и оптимизации Spark вычислений.
В этом модуле вы изучите:
cхема выполнения задачи в Spark;
основные термины Spark (job, task, stage);
представление вычислений в виде графа. Spark Python API. Spark RDD API;
Broadcast-сообщения и счетчики.
взаимодействие Hive и Spark SQL;
отличия DF от RDD.
Spark on YARN;
типы stage в Spark;
оптимизация операции shuffle;
настройка Garbage Collection, тюнинг потребления памяти.
Часть 3. RT, NoSQL, Data layout, Kafka
В этом модуле вы изучите:
подходы к Realtime-обработке;
гарантии обработки, переход от одной гарантии к другой, архитектуры "Лямбда" и "Каппа";
Spark Streaming vs. Spark RDD, Spark Structured Streaming vs. Spark DataFrames, DStream;
архитектура Kafka, Kafka Streams, репликация в Kafka. Отличие Kafka от классических очередей;
семантики доставки сообщений, сжатие данных в Kafka, синхронная и асинхронная репликация.
отличия Key-Value хранилищ от реляционных БД;
компактификация и её виды, CQLSH;
архитектура Cassandra;
обеспечение надёжности и высокодоступности в Key-Value хранилищах;
интеграция Spark с Cassandra.
как бороться с Data Skew с помощью MapReduce подходов в разных фреймворках;
trade-off между CPU и IO-bound приложениями, подходы к сжатию в Big Data, горячие и холодные данные;
форматы данных в Big Data: ORC vs Parquet, Avro, ...












