5+ лучших онлайн-курсов Data Engineer: обучение бесплатно и платно

В этом обзоре разберём ТОП онлайн-курсов дата-инженеров. На курсах Data Engineering научат начинающих специалистов с нуля профессии «Data Engineer» – включая трудоустройство, обучат обработке данных и созданию базы данных, работать с Big Data, строить пайплайны, создавать архитектуру БД.

Содержание

1 место. Курс «Дата-инженер с нуля до middle» — Нетология

https://netology.ru/programs/data-engineer

Стоимость: 110 000 ₽ или рассрочка на 24 месяца — 4 583 ₽ / мес

Научим автоматизировать работу с данными, настраивать мониторинги, создавать конвейеры обработки и схемы хранения данных
Сможете претендовать на позицию инженера данных, ETL-эксперта или MLOps уровня middle
Формат обучения — Онлайн
Уровень — С нуля
Документ — Диплом о профессиональной переподготовке

Обучение на курсе поможет вам

Перейти в профессию с высоким окладом на низкоконкурентном рынке

Окажетесь одним из первых в профессии, пока все учатся на data scientists

Освоить ключевые технологии и опередить запрос рынка

Станете востребованным специалистом сразу после обучения и не растеряете накопленные знания и навыки

Прожить опыт 2-3 лет самостоятельного изучения инжиниринга данных

Получите знания в концентрированном формате и с обратной связью от экспертов

А ещё вы получите

Больше 10 кейсов в портфолио

Выполните 80 домашних работ с фидбеком эксперта, а также онлайн-лабораторные и тесты

Доступ в профессиональные сообщества

Вас ждут полезные знакомства и обмен опытом с единомышленниками

Помощь в трудоустройстве

Поможем составить резюме, подготовиться к собеседованию, проконсультируем по релокации

Главный навык инженеров данных – создавать условия для хранения и организации полезных данных.

Кому будет полезен этот курс

Системным и сетевым администраторам

Сможете масштабировать инфраструктуру, выбирать из множества разных специфических инструментов, внедрять в продакшн решения коллег.

Backend или Fullstack-разработчикам

Сможете вырасти в деньгах и получить интересные задачи. Станете незаменимым сотрудником, погрузитесь в ключевой продукт и его метрики.

Новичкам, желающим войти в сферу Data Science

Сможете влиться в новую сферу и приобрести базу, с которой можно постоянно развиваться — в любых компаниях и продуктах.

Чему вы научитесь

Объяснять архитектуру и структуру базы данных

Проектировать схемы хранилищ и выбирать DWH под задачу и бюджет бизнеса среди популярных решений: Snowflake, BigQuery, Azure SQL DW, Redshift

Создавать процессы обработки данных

Настраивать и конфигурировать ETL / ELT-процессы в нескольких дата-инструментах

Работать с основными инструментами обработки больших данных

Lambda architecture, kappa architecture, а также hdfs, yarn, hive и другими обязательными частями инфраструктуры

Обрабатывать события в режиме реального времени

Построите свой конвейер обработки даннных, сборщик событий, RTDM-систему с выводом в массовые enterprise BI-решения

Разовьёте навык data literacy

Сможете понимать, пояснять и обогащать данные отчётов, дашбордов и других источников информации

Строить работающий пайплайн в облачной среде

И включать в него модели машинного обучения, нейронные сети, сервисы оркестрирования контейнеров и проверку версионности

Структура программы

Курс состоит из трёх больших модулей

Часть 1. Хороший аналитик

Программа построена от простого к сложному. В первом модуле вы научитесь пользоваться запросами SQL и работать с классическим хранилищем данных. Узнаете, как спроектировать аналитическую базу данных для ваших нужд, создадите свой первый OLAP-куб и научитесь выбирать и подключать Business Intelligence решения.

Работа студентки Анастасии Орел, ETL-пайплайн: посмотреть на GitHub.

Часть 2. Data Engineer

Получите базовые навыки по работе с Python. Установите и запустите свой первый hadoop. Создадите витрины данных. Освоите продвинутые методы работы с данными. Выполните обработку данных при помощи Spark. Построите конвейер обработки данных. Научитесь работать с базами данных для хранения и обработки потоковых данных. Создадите облачную базу данных и запустите Pipeline в облаке.

Работа студента Владимира Герингера после прохождения модуля по Python: посмотреть на GitHub.

Часть 3. ML-engineer

В этом модуле вы познакомитесь с моделями машинного обучения, построите свой первый классификатор и регрессию и обучите нейронную сеть. Узнаете, что такое CI/CD, запустите свой первый сервис в кластере и изучите подходы к масштабируемости ML-модели.

Программа курса

SQL и получение данных

7 часов теории
11 часов практики
Основы баз данных
Работа с базами данных
Основы SQL
Углубление в SQL
Работа с PostgreSQL
Работа с MongoDB

Data Warehouse

Научим работать с классическим хранилищем данных.

9 часов теории
15 часов практики
Введение в хранилища данных
Проектирование хранилища данных
Знакомство с Pentaho
Pentaho как инструмент ETL
ETL-pro
Общие рекомендации по разработки ETL
Смежные темы
DWH в облаке

Business Intelligence решения и многомерная модель данных

6 часов теории
6 часов практики
BI как сердце аналитики
Многомерные модели
Real-time отчётность
Современные подходы

Python

11 часов теории
19 часов практики
Основы Python
Введение в анализ данных на Python
Статистика в Python
Предобработка данных
Feature Selection

Data Lake & Hadoop

Познакомим с основным инструментом обработки больших данных.

8 часов теории
12 часов практики
Основы Hadoop
HDFS
MapReduce
MapReduce 2
Yarn
Pig & Hive
HBase & Cassandra
Кластер. Управление и администрирование

Продвинутые методы работы с данными

8 часов теории
8 часов практики
Apache Spark
Работа со Spark
Spark SQL
Продвинутый Spark
Airflow
Работа с Airflow
Продвинутый Airflow
Dbt как инструмент ETL

Работа с потоковыми данными

Научим работать с потоковыми данными.

6 часов теории
10 часов практики
ClickHouse
Kafka
Kafka Streams
Kafka Streams 2
Spark Streaming
Spark Streaming 2

Работа с данными в облаке

6 часов теории
10 часов практики
Google Cloud Platform — хранение данных
Spark в GCP
Managed ETL в GCP
Обработка real-time данных в GCP
Поиск инсайтов в данных при помощи ML
Другие облачные провайдеры

Введение в DS & ML

6 часов теории
10 часов практики
Введение в машинное обучение
Задача классификации
Задача кластеризации
Ансамблевые методы решения задачи классификации
Feature engineering
Нейронные сети

MLOps

9 часов теории
13 часов практики
Зачем нужен DevOps
Docker и микросервисная архитектура
K8S
Орекстраторы
CI/CD
Мониторинг
Инструменты DevOps для обучения ML-моделей
Deploy ML-моделей

Гарантия возврата денег

У вас есть три занятия, чтобы попробовать. Если передумаете учиться, скажите — и мы вернём вам всю сумму.

Ключевые навыки

Определение потребностей и требований бизнес-пользователей разных уровней
Работа с Tableau / Power BI как самыми популярными энтерпрайз-решениями для отчётности
Управление потоками данных любого размера
Выбор способа организации работы с большими данными — lambda architecture, kappa architecture и прочие
Создание витрин данных
Построение конвейеров обработки данных
Работа с data lakes в облаках и использование spark для обработки данных в них
Знание подходов к масштабируемости ML-моделей

Мы поможем с трудоустройством

Вас ждёт бесплатная программа трудоустройства Центра развития карьеры

2 место. Курс «Data Engineering» — SkillFactory

https://skillfactory.ru/data-engineer

Стоимость: 32 400 ₽ или рассрочка на 12 месяцев

По итогам курса вы:

Выполните реальный проект из практики дата инженера
Автоматизируете процесс очистки и сбора данных

Научитесь строить пайплайны данных в реальном времени

В современных компаниях накапливается большой объем данных, из которых можно извлекать важную аналитику, строить гипотезы или модели прогнозирования. Data Engineer — это специалист, который собирает данные из разных источников, очищает их и передает в удобном виде аналитикам для принятия бизнес-решений.

Аналитикам данных нужно знать, как работает хранилище данных, в каком виде там хранятся данные, как они обрабатываются и как их можно получить для анализа.

Курс ориентирован на практику и основные инструменты, подходит для тех, кто имеет базовые знания языка Python. За два месяца вы освоите все важные этапы Data Engineering.

Курс из специализации Data Science

Python
Math&Stat
Machine Learning
Deep Learning
Data Engineering
Менеджмент

Программа курса

МОДУЛИ

Введение, практический linux

Кто такой Data Engineer и зачем ему Linux?

Современные хранилища данных

Разнообразие баз данных и их особенности

Экосистема Hadoop

Что такое Hadoop, что он умеет и как им пользоваться

Источники данных и работа с ними

Файлы как источники данных, JDBC — структурированные данные, SQL для выгрузки данных

Apache Spark и обработка данных

Зачем нужен Apache Spark и как с ним работать

Hadoop как хранилище данных

Особенности и нюансы hdfs

Apache Airflow для оркестрации конвейеров

Настройка data pipelines

Обзор облачных хранилищ

Особенности и нюансы работы с облачными хранилищами: Google, Amazon, Azure

Преимущества курса

В рамках курса вас ждет сквозной проект — реальная задача дата инженера, на каждом новом этапе вы будете решать часть большой задачи и в финале автоматизируете весь процесс.

Курс основан на практике. Мы рассматриваем инструмент или технологию и сразу на практике ее отрабатываем.

Программа построена по принципу от простого к сложному. Вы узнаете и освоите самое важное о Data Engineering, что нужно знать инженеру данных.

В процессе обучения вам будет помогать преподаватель и команда кураторов, которые помогут разобраться с предметом и решат все технические и организационные вопросы.

Персональный сертификат о прохождении курса. По запросу предоставляется на английском языке.

3 место. Курс «Профессия Data Engineer» — Skillbox

https://skillbox.ru/course/data-engineer/

Стоимость: цену уточняйте на сайте.

Трудоустройство через 9 месяцев
Авторы курса – эксперты из Сбера, Visa, Wildberries, Luxoft, PropellerAds
★ 4,6 из 5 – рейтинг курса на основе 14 267 оценок
9 проектов для портфолио
Обновили курс в июне 2022 года.

Дата-инженер — специалист, который работает с большими данными (big data). Он организует сбор, очистку и загрузку данных в базы, создаёт инфраструктуру для хранения, чтобы дата-аналитики могли найти в них полезные инсайты для бизнеса.

Кому подойдёт этот курс:

Новичкам
С нуля освоите Python и SQL. Научитесь собирать, анализировать и обрабатывать данные. Решите задачи на основе реальных кейсов и добавите их в портфолио. Сможете начать карьеру в Data Engineering во время обучения.
Программистам
Подтянете знание SQL для работы с базами данных. Пройдёте весь путь дата-инженера от сбора сырых данных до деплоя модели. Опыт в программировании поможет быстро разобраться в новой профессии и сменить сферу.
Начинающим аналитикам
Изучите все этапы работы с данными. Научитесь собирать информацию из разных источников, выстраивать архитектуру для её хранения и визуализировать отчёты. Сможете самостоятельно подготовить данные для последующего анализа.

Чему вы научитесь?

Использовать инструменты анализа
Освоите языки Python и SQL. Сможете работать с библиотеками и фреймворками pandas, airflow, spark.
Обрабатывать данные
Узнаете, как подключаться к источникам информации и загружать их в систему. Сможете очищать, сохранять и интегрировать данные.
Тестировать код
Поймёте, как проводить регрессионное тестирование. Сможете тестировать пакеты, пайплайны и обрабатывать ошибки.
Взаимодействовать с заказчиком
Разберётесь, как готовить отчётность и согласовывать инфраструктуру данных. Сможете предоставить корректные данные заказчику.
Разворачивать Data Science проект
Поймёте, как реализовывать загрузку данных и собирать информацию из разных источников. Сможете выстраивать готовый пайплайн проекта.
Работать в команде
Познакомитесь с git и облачными сервисами для совместной работы. Сможете эффективно взаимодействовать со всеми участниками процесса.

Содержание курсов:

Вас ждут тематические модули и практика на основе реальных кейсов.
80+ практических работ, 3 итоговых проекта

Первый уровень: базовая подготовка
Среднее время прохождения — 5 месяцев.

Введение в Data Science

Второй уровень: введение в дата-инженерию и трудоустройство
Среднее время прохождения — 4 месяца. В процессе вам предстоит решить 6 реальных кейсов из практики дата-инженера и выполнить итоговый проект.

Data Engineer Junior

✦ Трудоустройство с помощью Центра карьеры

Карьерный консультант поможет подготовиться к собеседованию в компании-партнёре. Разберёте частые вопросы и научитесь меньше переживать на интервью.
Напишете сопроводительное письмо и грамотно оформите резюме.
Будете готовы пройти собеседование — карьерный консультант организует встречу с работодателем.
На интервью презентуете проекты, над которыми вы работали на курсе, а знания и навыки пригодятся для выполнения тестовых задач.

Продвинутый уровень: погружение в профессию
Среднее время прохождения — 3 месяца

Data Engineer advanced

Дополнительные курсы

Основы математики для Data Science
Основы статистики и теории вероятностей
Основы статистики и теории вероятностей. Advanced
Карьера разработчика: трудоустройство и развитие
Система контроля версий Git
Английский для IT-специалистов.

Курс «Факультет Data Engineering» — GeekBrains

https://gb.ru/geek_university/data-engineer

Стоимость: нет информации

Вы научитесь собирать и обрабатывать данные, проектировать хранилища и работать с инфраструктурой. Повысьте квалификацию и уровень дохода вместе с GeekBrains.

Дата-инженеры помогают аналитикам и дата саентистам своевременно получать качественные данные, на основании которых принимаются взвешенные бизнес-решения и создаются конкурентоспособные продукты с применением машинного обучения, аналитических систем, корпоративные хранилища.

После курса вы сможете работать по специальностям:

Data Engineer
Инженер дата-центра
DWH-аналитик
Инженер пайплайнов данных для машинного обучения (ML Engineer)

А также владеть DevOps компетенциями.

Кому подойдёт курс

Всем, кому интересно работать с данными.

Вы научитесь обрабатывать самые разные источники и форматы данных, освоите обработку больших массивов данных (BigData) на распределенных системах, максимизируйте пользу, извлекаемую из данных.

Начинающим аналитикам и разработчикам.

У вас будет всё для ускоренного карьерного роста: комплексные знания и опыт работы с продвинутыми инструментами, методологиями и стандартами. Прокачайте свои навыки для выхода на новый уровень.

Практикующим IT-специалистам.

Рассмотрим знакомые темы с новых углов, приумножим имеющиеся знания, подскажем, как перейти в востребованное направление и зарабатывать больше.

Программа обучения

Научитесь собирать и обрабатывать данные, проектировать хранилища и витрины, работать с инфраструктурой и с современными фреймворками обработки данных.

141 час обучающего контента

279 часов практики

2-3 вебинара в неделю

Подготовительный блок

Мы рекомендуем пройти подготовительные курсы, чтобы закрыть возможные пробелы в знаниях.

Курсы

Git. Базовый курс

Введение в Git
Установка и настройка Git
Основные команды терминала
Работа с репозиториями в Git
Управление файлами репозитория
История изменений
Работа с ветками репозитория
Публикация репозитория
Слияния веток
Управление версиями
Создание pull-request
Сложные операции
Работа с Fork-репозиториями

13 видео-уроков
2 часа обучающего контента

I четверть

Сбор и хранение данных

Вы погрузитесь в профессию дата-инженера: познакомитесь с понятием базы данных, научитесь использовать SQL, создавать запросы, программировать на Python. Также познакомитесь с открытыми данными, RESTful и SOAP-сервисами, форматами XML и JSON.

Курсы

Основы реляционных баз данных. MySQL

Вебинар. Установка окружения. DDL-команды
Видеоурок. Управление базами данных. Язык запросов SQL
Вебинар. Введение в проектирование баз данных
Вебинар. CRUD-операции
Видеоурок. Операторы, фильтрация, сортировка и ограничение. Агрегация данных
Вебинар. Операторы, фильтрация, сортировка и ограничение. Агрегация данных
Видеоурок. Сложные запросы
Вебинар. Сложные запросы
Видеоурок. Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры
Вебинар. Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры
Видеоурок. Оптимизация запросов. NoSQL
Вебинар. Оптимизация запросов

1 месяц — 12 уроков
18 часов контента, 36 часов практики

Основы Python

Знакомство с Python
Некоторые встроенные типы и операции с ними
Функции. Словари
Функции. Словари
Генераторы и comprehensions. Множества
Работа с файлами
Работа с файловой системой. Исключения в Python
Регулярные выражения и декораторы в Python
Объектно-ориентированное программирование (ООП). Введение
Объектно-ориентированное программирование (ООП). Продвинутый уровень
Объектно-ориентированное программирование (ООП). Полезные дополнения

1 месяц — 11 уроков
17 часов контента, 34 часа практики

Методы сбора и обработки данных из интернета

Основы клиент-серверного взаимодействия. Парсинг API
Парсинг HTML. Beautiful Soup, MongoDB
Системы управления базами данных MongoDB и SQLite в Python
Парсинг HTML. XPath
Фреймворк Scrapy
Scrapy. Парсинг фото и файлов
Selenium в Python
Работа с данными

1 месяц — 8 уроков
12 часов контента, 24 часа практики

Проект

Разработка собственного парсера

II четверть

Построение хранилищ данных для систем аналитики

Познакомитесь с реляционными и нереляционными базами данных, узнаете, как строить хранилища данных и выбирать архитектуры под конкретную задачу.

Курсы

Построение хранилища данных и основы ETL-процессов

Введение
Архитектура хранилищ
Проектирование хранилища, часть 1:
Проектирование хранилища, часть 2:
Создание ETL-процесса, часть 1:
Создание ETL-процесса, часть 2:
Управление качеством данных
Курсовой проект

1 месяц — 8 уроков
12 часов контента, 24 часа практики

Технологии OLAP + BI

Почему OLAP. Готовим ETL и DWH

Многомерное хранилище. Работа с измерениями

Создание мер. Процессинг и его оптимизация

Работа в MDX. Автопроцессинг

Подключение BI-системы

1 месяц — 4 урока
13 часов контента, 27 часов практики

Введение в NoSQL баз данных. Tarantool

Подходы к организации NoSQL данных
Redis
MongoDB. Часть 1
MongoDB. Часть 2
MongoDB. Часть 3
Tarantool. Часть 1
Tarantool. Часть 2

1 месяц — 7 уроков
14 часов контента, 12 часов практики

Проект

Хранилище для BI-системы

III четверть

Распределенные базы данных

В данной четверти вы познакомитесь с инструментами обработки больших массивов данных, в первую очередь с инструментами экосистемы Hadoop: HDFS, Yarn, Hive, Hue, Flume, Cassandra и другими. Вы освоите возможности фреймворка Apache Spark для распределённой обработки неструктурированных и слабоструктурированных данных. В конце четверти познакомитесь с популярным инструментом Apache Airflow для планирования и мониторинга пакетных процессов работы с большими данными.

Курсы

Big Data. Экосистема Hadoop

Введение в Hadoop
HDFS
YARN, MR
Hive, HUE
Форматы хранения
ETL
NoSQL
DWH

1 месяц — 8 уроков
12 часов контента, 24 часа практики

Big Data. Фреймворк Apache Spark

Архитектура Spark. Принципы исполнения запросов. Сохранение и чтение данных
Операции с данными: агрегаты, джойны. Оптимизация SQL-запросов
Типы данных в Spark. Коллекции как объекты DataFrame. User-defined Functions
Машинное обучение на PySpark на примере линейной регрессии

1 месяц — 4 урока
6 часов контента, 12 часов практики

Настройка потоков данных. Apache Airflow

Планирование задач. Введение Apache AirFlow
Установка Airflow. Создание и основные параметры DAG
Разработка потоков данных
Airflow в production. Примеры реальных задач

‍

1 месяц — 4 урока
8 часов контента, 18 часов практики

Проект

Полноценный ETL-пайплайн с использованием инструментов работы с большими данными

IV четверть

Real-time обработка данных и инфраструктура

В последней четверти вы освоите потоковую обработку данных с использованием инструментов Kafka и Spark Streaming. Также освоите практики DevOps, необходимые для работы дата-инженером.

Курсы

Потоковая обработка данных

Архитектура Kafka, Kafka Workflow
Kafka Producer и Kafka Consumer
Kafka Broadcasting and Groups
Kafka Stream
Processor API
Динамические запросы в Apache Kafka

1 месяц — 8 уроков
9 часов контента, 18 часов практики

Микросервисная архитектура и контейнеризация

Микросервисы и контейнеры
Docker
Введение в Kubernetes
Хранение данных и ресурсы
Сетевые абстракции Kubernetes
Устройство кластера
Продвинутые абстракции
Деплой тестового приложения в кластер, CI/CD

1 месяц — 8 уроков
12 часов контента, 24 часов практики

Проект

Потоковый сервис для оценки кредитоспособности клиентов банка с использованием машинного обучения

Курсы вне четверти

Предметы с индивидуальным выбором даты старта

Курсы вне четверти являются частью основной программы обучения и обязательны к прохождению. Вы можете формировать часть расписания самостоятельно и регулировать интенсивность обучения. На прохождение этих предметов у вас есть 2.5 года с момента покупки обучения в GeekUniversity. Проходите параллельно с четвертями или после года обучения.

Курсы

Подготовка данных для ML Applications

Введение в машинное обучение
Построение ML-модели, часть 1:
Построение ML-модели, часть 2:
Подготовка данных для разных задач

1 месяц – 4 урока
6 часов контента, 12 часов практики

Linux. Рабочая станция

Введение. Установка ОС
Настройка и знакомство с интерфейсом командной строки
Пользователи. Управление пользователями и группами
Загрузка ОС и процессы
Устройство файловой системы Linux. Понятия файла и каталога
Введение в скрипты Bash. Планировщики задач crontab и at
Управление пакетами и репозиториями. Основы сетевой безопасности
Введение в Docker

1 месяц — 8 уроков
12 часов контента, 24 часа практики

Освойте современные технологии и компетенции

Data Engineering
Python
Jupyter
SQL
DDL
NoSQL
Linux
CLI
HTML
HTTP
REST API
Hadoop
Map Reduce
Hive
HBase
Hue
Apache Spark
PySpark
Spark Streaming
Kafka
Airflow
MongoDB
Cassandra
HDFS
RDBMS
DevOps
Gitlab
CI/CD
Docker
Kubernetes
Machine Learning

Разработка, поддержка и оптимизация пайплайнов обработки данных и машинного обучения на Python и Spark
Проработка архитектуры разрабатываемых решений
Опыт проектирования аналитических систем хранения и обработки больших данных
Знание принципов работы БД (SQL/noSQL) и методологий моделирования
Опыт работы с Airflow и другими инструментами для запуска регулярных задач
Опыт с Devops (Docker, Kubernetes) инструментами
Понимание принципов машинного обучения и подготовки данных для ML-приложений
Опыт работы с ОС Linux
Сбор процессов очистки и валидации данных
Опыт работы с ETL-инструментами и сервисами
Опыт работы с пакетной и потоковой выгрузкой данных в аналитическое хранилище
Разработка витрин данных для бизнес-пользователей аналитики
Опыт работы с Hadoop кластером и HDFS, мониторинг своих приложений

Вы получите диплом о профессиональной переподготовке

Вы получаете электронный сертификат и диплом о профессиональной переподготовке, их можно приложить к портфолио и показать работодателю. Обучение проводим на основании гослицензии № 040485.

Отзывы на сайте.

Курс «Data Engineer» — Otus

https://otus.ru/lessons/data-engineer/

Стоимость: 90 000 ₽

Освойте лучшие практики работы с большими данными: Architecture, Data Lake, DWH, MLOps!

Что даст вам этот курс

Понимание ключевых способов интеграции, обработки, хранения больших данных
Умение работать с компонентами экосистемы Hadoop, распределенными хранилищами и облачными решениями
Практические навыки разработки дата-сервисов, витрин и приложений
Знание принципов организации мониторинга, оркестрации, тестирования

Курс адресован разработчикам, администраторам СУБД и всем, кто стремится повысить профессиональный уровень, освоить новые инструменты и заниматься интересными задачами в сфере работы с данными.

После обучения Data Engineering вы станете востребованным специалистом, который:

разворачивает, налаживает и оптимизирует инструменты обработки данных
адаптирует датасеты для дальнейшей работы и аналитики
создает сервисы, которые используют результаты обработки больших объемов данных
отвечает за архитектуру данных в компании

Real Case Studies: примеры внедрений, использования инструментов, оптимизации производительности, проблемы, ошибки и прикладные результаты

Высокая практическая направленность:

В течение курса будем инкрементально создавать работающий продукт, решая прикладные задачи

Целостная картина вызовов и задач современного бизнеса, и роли Инженера Данных в их решении

Востребованность у работодателей

39 работодателей уже готовы позвать на собеседование выпускников курса

Инженер данных — почему это актуально и интересно:

Прежде чем попасть на стол CEO в виде квартального отчета или индивидуальной подборкой книг в email-рассылке, данные проделывают длительный и сложный, полный преобразований и трансформаций, путь, требующий непрерывного мониторинга и оркестрации.
В этом ключе команда инженеров, которая готова обеспечить непрерывную поставку достоверной информации для всех бизнес-потребителей и функций играет важнейшую роль в принятии тактических и стратегических решений всей компании.
Работа инженеров данных, внешне незаметная, удивительно сложна и интересна по своей специфике. Невероятное количество закономерностей и связей, инструментов и подходов, параметров и настроек не оставят равнодушным ни один пытливый ум в поисках оптимальных и элегантных решений.

Необходимые знания

Необходимое:

Опыт разработки на Java/Python
Основы работы с БД:SQL, индексы, агрегирующие функции
Базовые знания ОС:работа с командной строкой, доступ по SSH

Будет плюсом:

Навыки работы с Docker
Знакомство с компонентами экосистемы Hadoop
Понимание основ машинного обучения с позиции Data Scienist-а или аналитика

Вступительное тестирование

Подготовительный курс

Курс рассчитан для программистов и администраторов, которые хотят освоить ОС Linux с нуля.

На курсе мы:

детально разберем основные команды в Linux и научимся работать в консоли
познакомимся с зомби, сиротами и демонами
выясним, что такое ядро операционной системы и системные вызовы
научимся работать со стандартными потоками ввода/вывода
разберем некоторые особенности файловой системы ext4

Программа обучения

В процессе обучения вы получите комплексные знания и навыки.

Модуль 1. Data Architecture

Тема 1. Инженер Данных. Задачи, навыки, инструменты, потребность на рынке

Тема 2. Архитектура аналитических приложений: базовые компоненты и принципы

Тема 3. On premises / Cloud solutions

Тема 4. Автоматизация пайплайнов и оркестрация – 1

Тема 5. Автоматизация пайплайнов и оркестрация – 2

Модуль 2. Data Lake

Тема 6. Распределенные файловые системы. HDFS / S3

Тема 7. SQL-доступ к Hadoop. Apache Hive / Presto

Тема 8. Форматы хранения данных и их особенности

Тема 9. Разбор ДЗ по 1 кейсу

Тема 10. Очереди сообщений. Обзор Kafka.

Тема 11. Выгрузка данных из внешних систем

Тема 12. Apache Spark – 1

Тема 13. Apache Spark – 2

Модуль 3. DWH

Тема 14. Аналитические СУБД. MPP-базы данных

Тема 15. Моделирование DWH – 1. Основы работы с dbt

Тема 16. Моделирование DWH – 2. Data Vault 2.0

Тема 17. DevOps практики в Аналитических приложениях. CI + CD

Тема 18. Разбор ДЗ по 2 кейсу

Тема 19. Data Quality. Управление качеством данных

Тема 20. Развертывание BI-решения

Тема 21. Мониторинг / Метаданные

Модуль 4. NoSQL/NewSQL

Тема 22. NoSQL Хранилища. Key-value

Тема 23. NoSQL Хранилища. Document-oriented

Тема 24. ELK

Тема 25. ClickHouse

Тема 26. Разбор ДЗ по 3 кейсу

Модуль 5. MLOps

Тема 27. Организация и Packaging кода

Тема 28. Docker и REST-архитектура

Тема 29. MLFlow + DVC

Тема 30. Деплоймент моделей

Тема 31. Разбор ДЗ по 4 кейсу

Тема 32. Разбор ДЗ по 5 кейсу

Модуль 6. Выпускной проект

Тема 33. Выбор темы и организация проектной работы

Тема 34. Консультация

Тема 35. Защита

После обучения вы

Заберете с собой:

основные и дополнительные материалы, и видеозаписи занятий;
образцы кода;
собственный проект, который можно будет показывать при трудоустройстве;
сертификат о прохождении обучения.

В результате обучения вы:

будете иметь представление об основных классах задач Инженера Данных, инструментах, предназначенных для их решения, а также их преимуществах и особенностях;
научитесь выстраивать пайплайны пакетной и потоковой обработки данных;
сможете проектировать хранилища данных и организовывать оптимальный доступ для потребителей;

Курс «DATA ENGINEER 9.0» — НОЧУ ДПО «НЬЮПРОЛАБ»

https://newprolab.com/ru/dataengineer

Стоимость: 75 000 руб.

За любым продуктом, сервисом — будь то рекомендательная система на сайте, рассылка персонализированных предложений, кампания по удержанию клиентов — стоят данные. От качества этих данных зависит и качество решений, ведь garbage in — garbage out. За доставку качественных данных из разных источников (например, сайт компании, CRM, соц. сети) отвечает data engineer. Работодатели не могут закрыть вакансии на этих специалистов по полгода.

Что входит в программу

6 лаб

Почти каждую неделю вам нужно будет решать лабораторную работу и суперачивку. Лабы объединены в 2 проекта: lambda-архитектура и kappa-архитектура. Также будет реальный проект с призовым фондом для продвинутых участников.

10+ инструментов

С частью инструментов вы сможете поработать глубоко: Kafka, HDFS, ClickHouse, Spark, Airflow. С частью сможете просто познакомиться на практике: ELK, Flink, Docker, Grafana, Kubernetes и др.

21 занятие

С трансляциями в прямом эфире и видеозаписями в личном кабинете. Занятия устроены так, что преподаватель рассказывает об устройстве того или иного инструмента, демонстрирует разные кейсы работы, показывая подводные камни и best practices.

Для кого эта программа?

-1-

Дата инженеры

У вас есть опыт работы с одними инструментами и хочется получить опыт работы с другими? Вы сможете это сделать, решая наши лабы и упражнения, задавая вопросы нашим преподавателям-практикам.

-2-

Администраторы БД

Вы умеете работать с классическими реляционными БД и хочется получить опыт работы с другими инструментами хранения данных? На программе вы сможете поработать с HDFS, ClickHouse, Kafka, ElasticSearch.

-3-

Менеджеры

Вы занимаетесь развитием продукта или подразделения? На программе вы получите понимание, какие инструменты можно использовать для каких задач, какие у них есть достоинства и недостатки.

Чему вы научитесь

В нашей программе есть три составляющих

Установка

Научитесь самостоятельно устанавливать все инструменты, используемые на программе, пользуясь нашими подробными мануалами.

Настройка

Научитесь подключать инструменты друг к другу, формируя пайплайны, получая baseline-решение.

Тюнинг

Научитесь улучшать быстродействие и отказоустойчивость как отдельных инструментов, так и пайплайнов целиком.

Проект 1. Lambda-архитектура

Лаба 0: подготовка

Деплой кластера в облаке и подключение Kafka

Перед стартом проекта вам нужно будет реализовать подготовительный этап — развертывание собственного кластера в облаке. После чего организовать сбор данных о посещении пользователей различных страниц сайта и их покупках.

Лаба 1 и суперачивка

Batch-layer

В этой лабе вам нужно будет организовать batch-layer в lambda-архитектуре. Вы получите данные из Kafka, положите их на HDFS. Используя Airflow, будете планово перекладывать предобработанные данные в ClickHouse.

Лаба 2 и суперачивка

Speed-layer

Используя Spark Streaming, вам нужно будет построить speed-layer, который будет обрабатывать данные в режиме реального времени, восполняя недостающую информацию в batch-layer.

Лаба 3 и суперачивка

Service-layer

Первый проект завершает тем, что вы подключаете один из BI-инструментов к обоим слоям — batch и speed — для выполнения аналитических запросов в отношении среднего чека и других метрик.

Проект 2. Kappa-архитектура

Лаба 4 и суперачивка

Speed-layer

В рамках этого проекта вам нужно будет построить модель машинного обучения, используя Spark ML, после чего использовать ее для прогнозирования пола и возрастной категории пользователей, заходящих на сайт.

Лаба 5 и суперачивка

Service-layer

Второй проект завершается тем, что вы подключаете BI-инструмент, который по запросу сможет выдавать нужные сегменты аудитории за всю историю существования без использования batch-layer.

Инфраструктура программы

То, с чем вы будете работать каждый день

Кластер

Наша программа — про построение пайплайнов, поэтому каждый участник поднимает свой собственный кластер на GCP, на котором может экспериментировать с инструментами, не мешая другим.

GitHub

Все презентации, jupyter-ноутбуки, лабы, мануалы мы выкладываем в закрытый репозиторий на GitHub. Этот инструмент стал стандартом работы в среде программистов и профессионалов в сфере данных.

Личный кабинет

В нем вы можете проверить правильность выполнения лаб, используя автоматические чекеры. Там же можно смотреть прямые трансляции и видеозаписи занятий.

Slack

Общение во время программы происходит в Slack — удобный мессенджер для команд. Там можно общаться с преподавателями, организаторами, друг с другом. Следить за апдейтами в GitHub и быть в курсе новостей.

Для учебы вам потребуются

Входные требования

Умение программировать на Python 3

Это основной язык программирования, используемый на программе. Хорошо, если вы уже будете знакомы с базовым синтаксисом, циклами, условными операторами, функциями, чтением и записью файлов. Он понадобится для работы со Spark и Airflow.

Базовые знания Linux

В командной строке Linux вы тоже будете много времени проводить, работая со своим кластером. Хорошо, если вы уже будете уметь перемещаться по директориям, создавать и редактировать файлы, заходить на удаленный сервер по ssh.

SQL

На программе вы будете использовать Apache Spark. Знание языка SQL может быть полезно для написания скриптов на SparkSQL. Помимо этого в нескольких лабах вам нужно будет писать небольшие SQL-запросы к ClickHouse.

Hadoop

На программе вы будете разворачивать свой Hadoop-кластер и работать с YARN, HDFS. Хорошо, если вы уже будете знакомы с этими инструментами и будете понимать для чего они нужны.

Курс «data engineering» — Data Learn

https://github.com/Data-Learn/data-engineering

Стоимость: разная стоимость

Getting Started with Analytics (Data) Engineering — курс про мою работу инженером данных и мой 10+ летний опыт создания аналитических решений в России, Европе, Канаде и США. Если бы я брал на работу инженера данных или BI инженера, я бы хотел, чтобы он обладал знаниями и компетенциями, которые мы затронем в курсе. Курс включает в себя базовые вещи, такие как Business Intelligence инструменты, базы данных, ETL инструменты, облачные вычисления и многое другое. Даже если у вас нету опыта с данными, то это вам не помешает. Первые несколько модулей будут посвящены основам аналитики и классическим задачам: Business Intelligence (отчетность, визуализация, хранилище данных, SQL, Excel, интеграция данных). Это будет достаточно для профессии BI разработчик, Аналитик и тп. Начиная с 5-6 модуля мы начнем углубляться непосредственно в работу Инженера Данных, опираясь на знания, полученные на начальных этапах.

Getting Started with Machine Learning and Data Science (ML-101) — курс от Анастасии Риццо о теории Машинного Обучения и Data Science, с понятной теорией и практическими кейсами из реальной жизни. Курс включает в себя 3 модуля: Первый модуль про теорию машинного Обучения и ДС; Второй модуль посвящен Регрессии (теория и практика); Третий модуль про Классификацию (тоже теория и 2 практических кейса). Курс позволяет вам примерить профессию Data Scientist на себя и особенно подойдет тем, кому страшно, но очень интересно начать изучать данную тематику.

Поиск работы для аналитических специальностей в России и за рубежом — курс от Анастасии Дробышевой. Анастасия профессиональный консультант по рынку труда и карьерному развитию. За 10 лет Анастасия провела более 2 000 карьерных консультаций, специализируется на IT/ digital, internet & e-commerce. Использует лучшие международные практики, полученные в работе с крупными американскими компаниями. В 2017 г. переехала из России в Словению, поэтому не понаслышке знает о поиске работы за границей. Курс включает в себя 5 модулей. Задача курса ー описать весь процесс поиска работы и дать вам инструменты для самостоятельного джобхантинга в любой стране.

Также мне хотелось бы выделить еще один элемент — Аналитическое Комьюнити для Женщин. Я вижу большой спрос на такого рода сообщества на западе и я подумал, что было бы классно иметь такое в русскоязычном сообществе для того, чтобы прекрасная половина могла изучать аналитику и технологии в своей комфортной зоне и со своей скоростью. Я бы хотел, чтобы нашлись заинтересованные девушки, кто будет развивать это направление, а я бы помогал с контентом (на данном этапе в этом направлении пока ничего не делается).

5+ лучших онлайн-курсов дата-инженеров: обучение платно и бесплатно 2024-2025. Рейтинг, сравнение, стоимость.

1 место. Курс «Дата-инженер с нуля до middle» — Нетология

2 место. Курс «Data Engineering» — SkillFactory

3 место. Курс «Профессия Data Engineer» — Skillbox

Курс «Факультет Data Engineering» — GeekBrains

Курс «Data Engineer» — Otus

Курс «DATA ENGINEER 9.0» — НОЧУ ДПО «НЬЮПРОЛАБ»

Курс «data engineering» — Data Learn