ТОП-7 курсов Spark в 2025 году: обучение онлайн. Рейтинг, сравнение, стоимость.

Курс рассчитан на Data инженеров, желающих глубже изучить Spark, а попутно также Hadoop и Hive.

На курсе вы изучите следующие основные темы:

  • Hadoop (основные компоненты, дистрибутивы вендоров)
  • Архитектура HDFS
  • Архитектура YARN
  • Форматы данных
  • Spark
  • Spark Streaming и Flink
  • Hive
  • Оркестрация, Мониторинг и CI/CD

и т.д.

Научитесь применять все это на практике и закрепите с помощью интересных и сложных домашних заданий и выпускного проекта.

После прохождения курса вы сможете:

  • Использовать Hadoop для обработки данных
  • Взаимодействовать с его компонентами через консольные клиенты и API
  • Работать со слабоструктурированными данными в Hive
  • Писать и оптимизировать приложения на Spark
  • Писать тесты для Spark-приложений
  • Использовать Spark для обработки табличных, потоковых, гео-данных и даже графов
  • Настраивать CI и мониторинг Spark-приложений.

Программа обучения:

Модуль 1. Scala

  • Тема 1. Основы Scala
  • Тема 2. Сборка проектов на Scala

Модуль 2. Hadoop

  • Тема 3. Hadoop
  • Тема 4. HDFS
  • Тема 5. YARN
  • Тема 6. Форматы данных

Модуль 3. Spark

  • Тема 7. Архитектура приложения Spark
  • Тема 8. RDD/Dataframe/Dataset
  • Тема 9. Методы оптимизации приложений Spark
  • Тема 10. Написание коннекторов для Spark
  • Тема 11. Тестирование приложений Spark
  • Тема 12. Spark ML

Модуль 4. Streaming

  • Тема 13. Kafka
  • Тема Spark Streaming
  • Тема Structured Streaming
  • Тема 16. Flink — часть 1
  • Тема 17. Flink — часть 2
  • Тема 18. Q&A

Модуль 5. Apache Hive

  • Тема 19. Обзор Hive
  • Тема 20. HiveQL

Модуль 6. Обслуживающие системы

  • Тема 21. Оркестрация процессов обработки данных
  • Тема 22. Мониторинг и логирование для Spark-приложений
  • Тема 23. CI/CD для Spark и Hive

Модуль 7. Проектная работа

  • Тема 24. Выбор темы и организация проектной работы
  • Тема 25. Консультация по проектам и домашним заданиям
  • Тема 26. Защита проектных работ

Выпускной проект

В качестве выпускного проекта будет построена ETL-система на основе Hadoop, включающая в себя:

  • Загрузку данных из источников
  • Простой Data Lake на основе этих данных с использованием Hive
  • Лямбда-архитектуру для реалтайм-аналитики на основе Spark

После курса Вы:

  1. заберете с собой полный комплект обучающих материалов: видеозаписи всех вебинаров, презентации к занятиям, а также решение задач и проектов в виде кода на github и другие дополнительные материалы;
  2. получите сертификат о прохождении курса;
  3. получите приглашение пройти собеседование в компаниях-партнерах (эту возможность получают самые успешные студенты).

3-дневный практический курс для разработчиков Apache Spark, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют Spark SQL, потоковую обработку Spark Streaming, машинное обучение MLLib и построение графов Spark GraphX.

Программа курса:

  1. Обзор Apache Spark
    Архитектура Обзор компонентов Spark и их назначения
  2. Основные абстракции Apache Spark
    Трансформации и действия, Lazy Evaluation
  3. Знакомство с Dataframes
    Structured API и основная абстракция Spark – Dataframe
  4. Знакомство со Spark RDD
    Low Level API, использование Resilient Distributed Dataset
  5. Apache Spark SQL
  • Получение данных из SQL-источников и обработка данных с помощью Spark SQL
  • Отправка данных в SQL СУБД и работа с Hive QL
  • Spark SQL и Hadoop
  1. Работа с источниками данных
  • Ввод и вывод в Apache Spark
  • Работа с файлами и базами данных
  1. Производительность и параллелизм в Apache Spark
    Планы выполнения запроса: логические и физические
  2. Конфигурирование Apache Spark
    Принципы конфигурирования и основные настройки
  3. Spark Streaming
  • Разница работы в режимах OLAP и OLTP. Основной workflow
  • Виды Spark Streams. Особенности исполнения streaming кода
  • Checkpoint в Spark Streaming
  1. GraphX
  • Задачи графов в программировании. Место графов в модели распределенных вычислений
  • Представление графов в GraphX. Операции с графами
  1. MLLib
  • Задачи машинного обучения и проблематика больших данных
  • Основные возможности Spark MLLib
  1. Обработка слабоструктурированных данных
  • Работа с JSON файлами и строками
  • Обработка информации, представленной в виде XML.
Стоимость: 52 000 ₽ — 54 000 ₽

Целевая аудитория:

Специалисты, аналитики данных и разработчики, желающие получить опыт настройки и использования компонентов Apache Spark.

Успешное окончание обучения по программе курса позволит специалистам:

  • Использовать Spark Streaming для создания приложений потоковой обработки данных
  • Понимать разницу использования различных форматов хранения данных и использования RDD, dataframes и datasets
  • Обращаться к данным с использование SQL или Hive QL
  • Настраивать и использовать компонент GraphX.

Цель курса:

Совершенствование знаний и навыков, необходимых для анализа данных с помощью Apache Spark.

Расписание:

  1. Экосистема Apache Spark — Spark RDD
  • Архитектура Spark. Принципы работы Resilent Data Distribution
  • Обзор компонентов Spark и их назначения
  • Конфигурация Spark из Java. Запуск на одной или нескольких машинах. Запуск поверх hadoop
  • Основные классы и базовый workflow — Spark RDD
  • Spark core- работа с аккумуляторами и переменными среды
  1. Apache Spark SQL
  • Расширение базовой системы классов- DataSet и DataFrame
  • Получение данных из SQL-источников с помощью Spark SQL
  • Отправка данных в SQL СУБД и работа с Hive QL
  • Spark SQL и Hadoop
  • Планы выполнения. Logical и physical планы. Настройки планов выполнения
  1. Spark Streaming
  • Разница работы в режимах OLAP и OLTP. Основной workflow
  • Виды Spark Stream-ов. Особенности исполнения streaming кода
  • Windows в Spark Streaming
  • Кеширование в Spark Streaming
  • Checkpoint-ы в Spark Streaming
  1. GraphX
  • Задачи графов в программировании. Место графов в модели распределенных вычислений
  • Представление графов в GraphX. Создание графов
  • Операции с графами в GraphX
  • Выбор модели распределения графа в GraphX.
Стоимость: 36 000 ₽ — 54 000 ₽

Курсы предназначены для разработчиков распределенных приложений, инженеров больших данных, аналитиков Big Data, DataOps и DevOps-инженерам, а также специалистов по Data Science и Machine Learning, которые хотят получить следующие знания и навыки:

  • Познакомиться с основными функциональными возможностями и базовыми компонентами Apache Spark Core для анализа больших данных и разработки распределенных приложений
  • Понять особенности потоковой и микро-пакетной обработки данных в режиме near real-time со Spark Streaming
  • Освоить аналитику больших данных с помощью стандартного языка структурированных запросов на Spark SQL
  • Изучить графовые алгоритмы обработки информации, парадигму Pregel и ее представление в Spark Graphframe
  • Разобраться с реализацией нейросетевых алгоритмов и других методов Machine Learning в Spark MLLib
  • Знать методы интеграции Spark-приложений с другими Big Data системами и внешними источниками данных; уметь строить эффективные конвейеры обработки больших данных (Pipelines) на базе Apache Spark, Airflow, Livy и других технологий Big Data
  • Понимать способы и возможности оптимизации каждого компонента платформы Apache Spark, от производительности кластера до SQL-запросов и накладных расходов в Big Data Pipeline.

Курсы:

  1. Анализ данных с Apache Spark
  2. Core Spark — основы для разработчиков
  3. Потоковая обработка в Apache Spark
  4. Машинное обучение в Apache Spark
  5. Графовые алгоритмы в Apache Spark.

Преимущества выбора курсов в РоманСеменцов.ру

1. Агрегатор онлайн-курсов


2. Рейтинги онлайн-школ

  • ТОП школ по любым направлениям
  • Дата начала: 2023-01-01
  • Дата окончания: 2023-12-31

3. Актуальное обучение

  • Выбирайте лучшие курсы по отзывам реальных учеников
  • Дата начала: 2023-01-01
  • Дата окончания: 2023-12-31
Онлайн-курсы доступ в любом городе России и СНГ, включая: Пенза, Санкт-Петербург, Орск, Волгоград, Магнитогорск, Саранск, Сургут, Казахстан, Петропавловск-Камчатский, Коломна, Уфа, Южно-Сахалинск, Шахты, Владивосток, Орехово-Зуево, Смоленск, Новочебоксарск, Кострома, Электросталь, Люберцы, Прокопьевск, Хабаровск, Бийск, Новокузнецк, Ростов-на-Дону, Дзержинск, Серпухов, Йошкар-Ола, Чита, Домодедово, Волгодонск, Красногорск, Каспийск, Хасавюрт, Салават, Улан-Удэ, Нефтеюганск, Армавир, Брянск, Красноярск, Рыбинск, Великий Новгород, Каменск-Уральский, Майкоп, Петрозаводск, Астрахань, Симферополь, Керчь, Копейск, Москва, Беларусь, Сочи, Тамбов, Ярославль, Подольск, Саратов, Псков, Томск, Норильск, Нижнекамск, Якутск, Архангельск, Долгопрудный, Благовещенск, Братск, Щёлково, Челябинск, Курган, Пятигорск, Грозный, Мытищи, Миасс, Мурманск, Энгельс, Орёл, Барнаул, Обнинск, Северодвинск, Краснодар, Комсомольск-на-Амуре, Череповец, Ижевск, Владикавказ, Киров, Тольятти, Старый Оскол, Белгород, Чебоксары, Екатеринбург, Ульяновск, Нижневартовск, Волжский, Златоуст, Пермь, Омск, Черкесск, Вологда, Кемерово, Новосибирск, Нижний Новгород, Сыктывкар, Кызыл, Назрань, Невинномысск, Липецк, Уссурийск, Ковров, Одинцово, Набережные Челны, Балашиха, Курск, Находка, Махачкала, Новый Уренгой, Новомосковск, Альметьевск, Стерлитамак, Химки, Казань, Рязань, Ангарск, Рубцовск, Минск, Иркутск, Калуга, Балаково, Нефтекамск, Абакан, Таганрог, Воронеж, Нижний Тагил, Оренбург, Березники, Тверь, Раменское, Севастополь, Тюмень, Новочеркасск, Иваново, Сызрань, Тула, Батайск, Новороссийск, Владимир, Самара, Кисловодск, Королёв, Дербент, Первоуральск, Калининград, Ставрополь

Автор статьи. Ответственный за актуальный контент, текст и редактуру сайта. Эксперт по выбору профессии, курсов и профессий с 2016 года. Делюсь личным практическим опытом.

Оцените автора
Блог Романа Семенцова
Добавить комментарий