ТОП-7 курсов Spark в 2025 году: обучение онлайн. Рейтинг, сравнение, стоимость.

Курс рассчитан на Data инженеров, желающих глубже изучить Spark, а попутно также Hadoop и Hive.

На курсе вы изучите следующие основные темы:

  • Hadoop (основные компоненты, дистрибутивы вендоров)
  • Архитектура HDFS
  • Архитектура YARN
  • Форматы данных
  • Spark
  • Spark Streaming и Flink
  • Hive
  • Оркестрация, Мониторинг и CI/CD

и т.д.

Научитесь применять все это на практике и закрепите с помощью интересных и сложных домашних заданий и выпускного проекта.

После прохождения курса вы сможете:

  • Использовать Hadoop для обработки данных
  • Взаимодействовать с его компонентами через консольные клиенты и API
  • Работать со слабоструктурированными данными в Hive
  • Писать и оптимизировать приложения на Spark
  • Писать тесты для Spark-приложений
  • Использовать Spark для обработки табличных, потоковых, гео-данных и даже графов
  • Настраивать CI и мониторинг Spark-приложений.

Программа обучения:

Модуль 1. Scala

  • Тема 1. Основы Scala
  • Тема 2. Сборка проектов на Scala

Модуль 2. Hadoop

  • Тема 3. Hadoop
  • Тема 4. HDFS
  • Тема 5. YARN
  • Тема 6. Форматы данных

Модуль 3. Spark

  • Тема 7. Архитектура приложения Spark
  • Тема 8. RDD/Dataframe/Dataset
  • Тема 9. Методы оптимизации приложений Spark
  • Тема 10. Написание коннекторов для Spark
  • Тема 11. Тестирование приложений Spark
  • Тема 12. Spark ML

Модуль 4. Streaming

  • Тема 13. Kafka
  • Тема Spark Streaming
  • Тема Structured Streaming
  • Тема 16. Flink — часть 1
  • Тема 17. Flink — часть 2
  • Тема 18. Q&A

Модуль 5. Apache Hive

  • Тема 19. Обзор Hive
  • Тема 20. HiveQL

Модуль 6. Обслуживающие системы

  • Тема 21. Оркестрация процессов обработки данных
  • Тема 22. Мониторинг и логирование для Spark-приложений
  • Тема 23. CI/CD для Spark и Hive

Модуль 7. Проектная работа

  • Тема 24. Выбор темы и организация проектной работы
  • Тема 25. Консультация по проектам и домашним заданиям
  • Тема 26. Защита проектных работ

Выпускной проект

В качестве выпускного проекта будет построена ETL-система на основе Hadoop, включающая в себя:

  • Загрузку данных из источников
  • Простой Data Lake на основе этих данных с использованием Hive
  • Лямбда-архитектуру для реалтайм-аналитики на основе Spark

После курса Вы:

  1. заберете с собой полный комплект обучающих материалов: видеозаписи всех вебинаров, презентации к занятиям, а также решение задач и проектов в виде кода на github и другие дополнительные материалы;
  2. получите сертификат о прохождении курса;
  3. получите приглашение пройти собеседование в компаниях-партнерах (эту возможность получают самые успешные студенты).

3-дневный практический курс для разработчиков Apache Spark, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют Spark SQL, потоковую обработку Spark Streaming, машинное обучение MLLib и построение графов Spark GraphX.

Программа курса:

  1. Обзор Apache Spark
    Архитектура Обзор компонентов Spark и их назначения
  2. Основные абстракции Apache Spark
    Трансформации и действия, Lazy Evaluation
  3. Знакомство с Dataframes
    Structured API и основная абстракция Spark – Dataframe
  4. Знакомство со Spark RDD
    Low Level API, использование Resilient Distributed Dataset
  5. Apache Spark SQL
  • Получение данных из SQL-источников и обработка данных с помощью Spark SQL
  • Отправка данных в SQL СУБД и работа с Hive QL
  • Spark SQL и Hadoop
  1. Работа с источниками данных
  • Ввод и вывод в Apache Spark
  • Работа с файлами и базами данных
  1. Производительность и параллелизм в Apache Spark
    Планы выполнения запроса: логические и физические
  2. Конфигурирование Apache Spark
    Принципы конфигурирования и основные настройки
  3. Spark Streaming
  • Разница работы в режимах OLAP и OLTP. Основной workflow
  • Виды Spark Streams. Особенности исполнения streaming кода
  • Checkpoint в Spark Streaming
  1. GraphX
  • Задачи графов в программировании. Место графов в модели распределенных вычислений
  • Представление графов в GraphX. Операции с графами
  1. MLLib
  • Задачи машинного обучения и проблематика больших данных
  • Основные возможности Spark MLLib
  1. Обработка слабоструктурированных данных
  • Работа с JSON файлами и строками
  • Обработка информации, представленной в виде XML.
Стоимость: 52 000 ₽ — 54 000 ₽

Целевая аудитория:

Специалисты, аналитики данных и разработчики, желающие получить опыт настройки и использования компонентов Apache Spark.

Успешное окончание обучения по программе курса позволит специалистам:

  • Использовать Spark Streaming для создания приложений потоковой обработки данных
  • Понимать разницу использования различных форматов хранения данных и использования RDD, dataframes и datasets
  • Обращаться к данным с использование SQL или Hive QL
  • Настраивать и использовать компонент GraphX.

Цель курса:

Совершенствование знаний и навыков, необходимых для анализа данных с помощью Apache Spark.

Расписание:

  1. Экосистема Apache Spark — Spark RDD
  • Архитектура Spark. Принципы работы Resilent Data Distribution
  • Обзор компонентов Spark и их назначения
  • Конфигурация Spark из Java. Запуск на одной или нескольких машинах. Запуск поверх hadoop
  • Основные классы и базовый workflow — Spark RDD
  • Spark core- работа с аккумуляторами и переменными среды
  1. Apache Spark SQL
  • Расширение базовой системы классов- DataSet и DataFrame
  • Получение данных из SQL-источников с помощью Spark SQL
  • Отправка данных в SQL СУБД и работа с Hive QL
  • Spark SQL и Hadoop
  • Планы выполнения. Logical и physical планы. Настройки планов выполнения
  1. Spark Streaming
  • Разница работы в режимах OLAP и OLTP. Основной workflow
  • Виды Spark Stream-ов. Особенности исполнения streaming кода
  • Windows в Spark Streaming
  • Кеширование в Spark Streaming
  • Checkpoint-ы в Spark Streaming
  1. GraphX
  • Задачи графов в программировании. Место графов в модели распределенных вычислений
  • Представление графов в GraphX. Создание графов
  • Операции с графами в GraphX
  • Выбор модели распределения графа в GraphX.
Стоимость: 36 000 ₽ — 54 000 ₽

Курсы предназначены для разработчиков распределенных приложений, инженеров больших данных, аналитиков Big Data, DataOps и DevOps-инженерам, а также специалистов по Data Science и Machine Learning, которые хотят получить следующие знания и навыки:

  • Познакомиться с основными функциональными возможностями и базовыми компонентами Apache Spark Core для анализа больших данных и разработки распределенных приложений
  • Понять особенности потоковой и микро-пакетной обработки данных в режиме near real-time со Spark Streaming
  • Освоить аналитику больших данных с помощью стандартного языка структурированных запросов на Spark SQL
  • Изучить графовые алгоритмы обработки информации, парадигму Pregel и ее представление в Spark Graphframe
  • Разобраться с реализацией нейросетевых алгоритмов и других методов Machine Learning в Spark MLLib
  • Знать методы интеграции Spark-приложений с другими Big Data системами и внешними источниками данных; уметь строить эффективные конвейеры обработки больших данных (Pipelines) на базе Apache Spark, Airflow, Livy и других технологий Big Data
  • Понимать способы и возможности оптимизации каждого компонента платформы Apache Spark, от производительности кластера до SQL-запросов и накладных расходов в Big Data Pipeline.

Курсы:

  1. Анализ данных с Apache Spark
  2. Core Spark — основы для разработчиков
  3. Потоковая обработка в Apache Spark
  4. Машинное обучение в Apache Spark
  5. Графовые алгоритмы в Apache Spark.

Преимущества выбора курсов в РоманСеменцов.ру

1. Агрегатор онлайн-курсов


2. Рейтинги онлайн-школ

  • ТОП школ по любым направлениям
  • Дата начала: 2023-01-01
  • Дата окончания: 2023-12-31

3. Актуальное обучение

  • Выбирайте лучшие курсы по отзывам реальных учеников
  • Дата начала: 2023-01-01
  • Дата окончания: 2023-12-31
Онлайн-курсы доступ в любом городе России и СНГ, включая: Ижевск, Вологда, Ставрополь, Владивосток, Старый Оскол, Ульяновск, Дербент, Щёлково, Сургут, Нижнекамск, Красногорск, Волжский, Стерлитамак, Новочебоксарск, Минск, Первоуральск, Якутск, Подольск, Пенза, Березники, Раменское, Уссурийск, Находка, Краснодар, Химки, Обнинск, Курск, Нижний Новгород, Омск, Пятигорск, Рубцовск, Орехово-Зуево, Саратов, Черкесск, Псков, Благовещенск, Иваново, Сызрань, Южно-Сахалинск, Уфа, Беларусь, Северодвинск, Невинномысск, Симферополь, Каспийск, Смоленск, Кисловодск, Рязань, Тамбов, Петропавловск-Камчатский, Новокузнецк, Калуга, Казахстан, Барнаул, Тольятти, Комсомольск-на-Амуре, Братск, Новосибирск, Королёв, Батайск, Керчь, Пермь, Новочеркасск, Белгород, Рыбинск, Домодедово, Кемерово, Бийск, Севастополь, Великий Новгород, Мурманск, Саранск, Курган, Архангельск, Воронеж, Улан-Удэ, Оренбург, Самара, Копейск, Кострома, Энгельс, Иркутск, Альметьевск, Миасс, Таганрог, Новороссийск, Тверь, Махачкала, Коломна, Калининград, Чебоксары, Мытищи, Нефтеюганск, Санкт-Петербург, Балашиха, Прокопьевск, Тюмень, Владикавказ, Челябинск, Волгоград, Нижний Тагил, Чита, Долгопрудный, Москва, Новый Уренгой, Дзержинск, Норильск, Тула, Ангарск, Шахты, Ярославль, Кызыл, Хасавюрт, Орёл, Набережные Челны, Нефтекамск, Сочи, Магнитогорск, Орск, Петрозаводск, Майкоп, Салават, Волгодонск, Грозный, Брянск, Астрахань, Томск, Екатеринбург, Нижневартовск, Владимир, Казань, Красноярск, Балаково, Липецк, Череповец, Киров, Йошкар-Ола, Сыктывкар, Хабаровск, Ростов-на-Дону, Златоуст, Серпухов, Абакан, Армавир, Каменск-Уральский, Одинцово, Люберцы, Ковров, Электросталь, Назрань, Новомосковск

Автор статьи. Ответственный за актуальный контент, текст и редактуру сайта. Эксперт по выбору профессии, курсов и профессий с 2016 года. Делюсь личным практическим опытом.

Оцените автора
Блог Романа Семенцова
Добавить комментарий