В этом обзоре разберём ТОП онлайн-курсов дата-инженеров. На курсах Data Engineering научат начинающих специалистов с нуля профессии «Data Engineer» – включая трудоустройство, обучат обработке данных и созданию базы данных, работать с Big Data, строить пайплайны, создавать архитектуру БД.
- Научим автоматизировать работу с данными, настраивать мониторинги, создавать конвейеры обработки и схемы хранения данных
- Сможете претендовать на позицию инженера данных, ETL-эксперта или MLOps уровня middle
- Формат обучения — Онлайн
- Уровень — С нуля
- Документ — Диплом о профессиональной переподготовке
Обучение на курсе поможет вам
- Перейти в профессию с высоким окладом на низкоконкурентном рынке
Окажетесь одним из первых в профессии, пока все учатся на data scientists
- Освоить ключевые технологии и опередить запрос рынка
Станете востребованным специалистом сразу после обучения и не растеряете накопленные знания и навыки
- Прожить опыт 2-3 лет самостоятельного изучения инжиниринга данных
Получите знания в концентрированном формате и с обратной связью от экспертов
А ещё вы получите
- Больше 10 кейсов в портфолио
Выполните 80 домашних работ с фидбеком эксперта, а также онлайн-лабораторные и тесты
- Доступ в профессиональные сообщества
Вас ждут полезные знакомства и обмен опытом с единомышленниками
- Помощь в трудоустройстве
Поможем составить резюме, подготовиться к собеседованию, проконсультируем по релокации
Главный навык инженеров данных – создавать условия для хранения и организации полезных данных.
Кому будет полезен этот курс
- Системным и сетевым администраторам
Сможете масштабировать инфраструктуру, выбирать из множества разных специфических инструментов, внедрять в продакшн решения коллег.
- Backend или Fullstack-разработчикам
Сможете вырасти в деньгах и получить интересные задачи. Станете незаменимым сотрудником, погрузитесь в ключевой продукт и его метрики.
- Новичкам, желающим войти в сферу Data Science
Сможете влиться в новую сферу и приобрести базу, с которой можно постоянно развиваться — в любых компаниях и продуктах.
Чему вы научитесь
- Объяснять архитектуру и структуру базы данных
Проектировать схемы хранилищ и выбирать DWH под задачу и бюджет бизнеса среди популярных решений: Snowflake, BigQuery, Azure SQL DW, Redshift
- Создавать процессы обработки данных
Настраивать и конфигурировать ETL / ELT-процессы в нескольких дата-инструментах
- Работать с основными инструментами обработки больших данных
Lambda architecture, kappa architecture, а также hdfs, yarn, hive и другими обязательными частями инфраструктуры
- Обрабатывать события в режиме реального времени
Построите свой конвейер обработки даннных, сборщик событий, RTDM-систему с выводом в массовые enterprise BI-решения
- Разовьёте навык data literacy
Сможете понимать, пояснять и обогащать данные отчётов, дашбордов и других источников информации
- Строить работающий пайплайн в облачной среде
И включать в него модели машинного обучения, нейронные сети, сервисы оркестрирования контейнеров и проверку версионности
Структура программы
Курс состоит из трёх больших модулей
Часть 1. Хороший аналитик
Программа построена от простого к сложному. В первом модуле вы научитесь пользоваться запросами SQL и работать с классическим хранилищем данных. Узнаете, как спроектировать аналитическую базу данных для ваших нужд, создадите свой первый OLAP-куб и научитесь выбирать и подключать Business Intelligence решения.
Работа студентки Анастасии Орел, ETL-пайплайн: посмотреть на GitHub.
Часть 2. Data Engineer
Получите базовые навыки по работе с Python. Установите и запустите свой первый hadoop. Создадите витрины данных. Освоите продвинутые методы работы с данными. Выполните обработку данных при помощи Spark. Построите конвейер обработки данных. Научитесь работать с базами данных для хранения и обработки потоковых данных. Создадите облачную базу данных и запустите Pipeline в облаке.
Работа студента Владимира Герингера после прохождения модуля по Python: посмотреть на GitHub.
Часть 3. ML-engineer
В этом модуле вы познакомитесь с моделями машинного обучения, построите свой первый классификатор и регрессию и обучите нейронную сеть. Узнаете, что такое CI/CD, запустите свой первый сервис в кластере и изучите подходы к масштабируемости ML-модели.
Программа курса
SQL и получение данных
- 7 часов теории
- 11 часов практики
- Основы баз данных
- Работа с базами данных
- Основы SQL
- Углубление в SQL
- Работа с PostgreSQL
- Работа с MongoDB
Data Warehouse
Научим работать с классическим хранилищем данных.
- 9 часов теории
- 15 часов практики
- Введение в хранилища данных
- Проектирование хранилища данных
- Знакомство с Pentaho
- Pentaho как инструмент ETL
- ETL-pro
- Общие рекомендации по разработки ETL
- Смежные темы
- DWH в облаке
Business Intelligence решения и многомерная модель данных
- 6 часов теории
- 6 часов практики
- BI как сердце аналитики
- Многомерные модели
- Real-time отчётность
- Современные подходы
Python
- 11 часов теории
- 19 часов практики
- Основы Python
- Введение в анализ данных на Python
- Статистика в Python
- Предобработка данных
- Feature Selection
Data Lake & Hadoop
Познакомим с основным инструментом обработки больших данных.
- 8 часов теории
- 12 часов практики
- Основы Hadoop
- HDFS
- MapReduce
- MapReduce 2
- Yarn
- Pig & Hive
- HBase & Cassandra
- Кластер. Управление и администрирование
Продвинутые методы работы с данными
- 8 часов теории
- 8 часов практики
- Apache Spark
- Работа со Spark
- Spark SQL
- Продвинутый Spark
- Airflow
- Работа с Airflow
- Продвинутый Airflow
- Dbt как инструмент ETL
Работа с потоковыми данными
Научим работать с потоковыми данными.
- 6 часов теории
- 10 часов практики
- ClickHouse
- Kafka
- Kafka Streams
- Kafka Streams 2
- Spark Streaming
- Spark Streaming 2
Работа с данными в облаке
- 6 часов теории
- 10 часов практики
- Google Cloud Platform — хранение данных
- Spark в GCP
- Managed ETL в GCP
- Обработка real-time данных в GCP
- Поиск инсайтов в данных при помощи ML
- Другие облачные провайдеры
Введение в DS & ML
- 6 часов теории
- 10 часов практики
- Введение в машинное обучение
- Задача классификации
- Задача кластеризации
- Ансамблевые методы решения задачи классификации
- Feature engineering
- Нейронные сети
MLOps
- 9 часов теории
- 13 часов практики
- Зачем нужен DevOps
- Docker и микросервисная архитектура
- K8S
- Орекстраторы
- CI/CD
- Мониторинг
- Инструменты DevOps для обучения ML-моделей
- Deploy ML-моделей
Гарантия возврата денег
У вас есть три занятия, чтобы попробовать. Если передумаете учиться, скажите — и мы вернём вам всю сумму.
Ключевые навыки
- Определение потребностей и требований бизнес-пользователей разных уровней
- Работа с Tableau / Power BI как самыми популярными энтерпрайз-решениями для отчётности
- Управление потоками данных любого размера
- Выбор способа организации работы с большими данными — lambda architecture, kappa architecture и прочие
- Создание витрин данных
- Построение конвейеров обработки данных
- Работа с data lakes в облаках и использование spark для обработки данных в них
- Знание подходов к масштабируемости ML-моделей
Мы поможем с трудоустройством
Вас ждёт бесплатная программа трудоустройства Центра развития карьеры
По итогам курса вы:
- Выполните реальный проект из практики дата инженера
- Автоматизируете процесс очистки и сбора данных
Научитесь строить пайплайны данных в реальном времени
В современных компаниях накапливается большой объем данных, из которых можно извлекать важную аналитику, строить гипотезы или модели прогнозирования. Data Engineer — это специалист, который собирает данные из разных источников, очищает их и передает в удобном виде аналитикам для принятия бизнес-решений.
Аналитикам данных нужно знать, как работает хранилище данных, в каком виде там хранятся данные, как они обрабатываются и как их можно получить для анализа.
Курс ориентирован на практику и основные инструменты, подходит для тех, кто имеет базовые знания языка Python. За два месяца вы освоите все важные этапы Data Engineering.
Курс из специализации Data Science
- Python
- Math&Stat
- Machine Learning
- Deep Learning
- Data Engineering
- Менеджмент
Программа курса
МОДУЛИ
1
Введение, практический linux
Кто такой Data Engineer и зачем ему Linux?
2
Современные хранилища данных
Разнообразие баз данных и их особенности
3
Экосистема Hadoop
Что такое Hadoop, что он умеет и как им пользоваться
4
Источники данных и работа с ними
Файлы как источники данных, JDBC — структурированные данные, SQL для выгрузки данных
5
Apache Spark и обработка данных
Зачем нужен Apache Spark и как с ним работать
6
Hadoop как хранилище данных
Особенности и нюансы hdfs
7
Apache Airflow для оркестрации конвейеров
Настройка data pipelines
8
Обзор облачных хранилищ
Особенности и нюансы работы с облачными хранилищами: Google, Amazon, Azure
Преимущества курса
В рамках курса вас ждет сквозной проект — реальная задача дата инженера, на каждом новом этапе вы будете решать часть большой задачи и в финале автоматизируете весь процесс.
Курс основан на практике. Мы рассматриваем инструмент или технологию и сразу на практике ее отрабатываем.
Программа построена по принципу от простого к сложному. Вы узнаете и освоите самое важное о Data Engineering, что нужно знать инженеру данных.
В процессе обучения вам будет помогать преподаватель и команда кураторов, которые помогут разобраться с предметом и решат все технические и организационные вопросы.
Персональный сертификат о прохождении курса. По запросу предоставляется на английском языке.
- Трудоустройство через 9 месяцев
- Авторы курса – эксперты из Сбера, Visa, Wildberries, Luxoft, PropellerAds
- ★ 4,6 из 5 – рейтинг курса на основе 14 267 оценок
- 9 проектов для портфолио
- Обновили курс в июне 2022 года.
Дата-инженер — специалист, который работает с большими данными (big data). Он организует сбор, очистку и загрузку данных в базы, создаёт инфраструктуру для хранения, чтобы дата-аналитики могли найти в них полезные инсайты для бизнеса.
Кому подойдёт этот курс:
- Новичкам
С нуля освоите Python и SQL. Научитесь собирать, анализировать и обрабатывать данные. Решите задачи на основе реальных кейсов и добавите их в портфолио. Сможете начать карьеру в Data Engineering во время обучения. - Программистам
Подтянете знание SQL для работы с базами данных. Пройдёте весь путь дата-инженера от сбора сырых данных до деплоя модели. Опыт в программировании поможет быстро разобраться в новой профессии и сменить сферу. - Начинающим аналитикам
Изучите все этапы работы с данными. Научитесь собирать информацию из разных источников, выстраивать архитектуру для её хранения и визуализировать отчёты. Сможете самостоятельно подготовить данные для последующего анализа.
Чему вы научитесь?
- Использовать инструменты анализа
Освоите языки Python и SQL. Сможете работать с библиотеками и фреймворками pandas, airflow, spark. - Обрабатывать данные
Узнаете, как подключаться к источникам информации и загружать их в систему. Сможете очищать, сохранять и интегрировать данные. - Тестировать код
Поймёте, как проводить регрессионное тестирование. Сможете тестировать пакеты, пайплайны и обрабатывать ошибки. - Взаимодействовать с заказчиком
Разберётесь, как готовить отчётность и согласовывать инфраструктуру данных. Сможете предоставить корректные данные заказчику. - Разворачивать Data Science проект
Поймёте, как реализовывать загрузку данных и собирать информацию из разных источников. Сможете выстраивать готовый пайплайн проекта. - Работать в команде
Познакомитесь с git и облачными сервисами для совместной работы. Сможете эффективно взаимодействовать со всеми участниками процесса.
Содержание курсов:
Вас ждут тематические модули и практика на основе реальных кейсов.
80+ практических работ, 3 итоговых проекта
- Первый уровень: базовая подготовка
Среднее время прохождения — 5 месяцев.
- Введение в Data Science
- Второй уровень: введение в дата-инженерию и трудоустройство
Среднее время прохождения — 4 месяца. В процессе вам предстоит решить 6 реальных кейсов из практики дата-инженера и выполнить итоговый проект.
- Data Engineer Junior
- ✦ Трудоустройство с помощью Центра карьеры
- Карьерный консультант поможет подготовиться к собеседованию в компании-партнёре. Разберёте частые вопросы и научитесь меньше переживать на интервью.
- Напишете сопроводительное письмо и грамотно оформите резюме.
- Будете готовы пройти собеседование — карьерный консультант организует встречу с работодателем.
- На интервью презентуете проекты, над которыми вы работали на курсе, а знания и навыки пригодятся для выполнения тестовых задач.
- Продвинутый уровень: погружение в профессию
Среднее время прохождения — 3 месяца
- Data Engineer advanced
- Дополнительные курсы
- Основы математики для Data Science
- Основы статистики и теории вероятностей
- Основы статистики и теории вероятностей. Advanced
- Карьера разработчика: трудоустройство и развитие
- Система контроля версий Git
- Английский для IT-специалистов.
Вы научитесь собирать и обрабатывать данные, проектировать хранилища и работать с инфраструктурой. Повысьте квалификацию и уровень дохода вместе с GeekBrains.
Дата-инженеры помогают аналитикам и дата саентистам своевременно получать качественные данные, на основании которых принимаются взвешенные бизнес-решения и создаются конкурентоспособные продукты с применением машинного обучения, аналитических систем, корпоративные хранилища.
После курса вы сможете работать по специальностям:
- Data Engineer
- Инженер дата-центра
- DWH-аналитик
- Инженер пайплайнов данных для машинного обучения (ML Engineer)
А также владеть DevOps компетенциями.
Кому подойдёт курс
- Всем, кому интересно работать с данными.
Вы научитесь обрабатывать самые разные источники и форматы данных, освоите обработку больших массивов данных (BigData) на распределенных системах, максимизируйте пользу, извлекаемую из данных.
- Начинающим аналитикам и разработчикам.
У вас будет всё для ускоренного карьерного роста: комплексные знания и опыт работы с продвинутыми инструментами, методологиями и стандартами. Прокачайте свои навыки для выхода на новый уровень.
- Практикующим IT-специалистам.
Рассмотрим знакомые темы с новых углов, приумножим имеющиеся знания, подскажем, как перейти в востребованное направление и зарабатывать больше.
Программа обучения
Научитесь собирать и обрабатывать данные, проектировать хранилища и витрины, работать с инфраструктурой и с современными фреймворками обработки данных.
141 час обучающего контента
279 часов практики
2-3 вебинара в неделю
Подготовительный блок
Мы рекомендуем пройти подготовительные курсы, чтобы закрыть возможные пробелы в знаниях.
Курсы
Git. Базовый курс
- Введение в Git
- Установка и настройка Git
- Основные команды терминала
- Работа с репозиториями в Git
- Управление файлами репозитория
- История изменений
- Работа с ветками репозитория
- Публикация репозитория
- Слияния веток
- Управление версиями
- Создание pull-request
- Сложные операции
- Работа с Fork-репозиториями
13 видео-уроков
2 часа обучающего контента
I четверть
Сбор и хранение данных
Вы погрузитесь в профессию дата-инженера: познакомитесь с понятием базы данных, научитесь использовать SQL, создавать запросы, программировать на Python. Также познакомитесь с открытыми данными, RESTful и SOAP-сервисами, форматами XML и JSON.
Курсы
Основы реляционных баз данных. MySQL
- Вебинар. Установка окружения. DDL-команды
- Видеоурок. Управление базами данных. Язык запросов SQL
- Вебинар. Введение в проектирование баз данных
- Вебинар. CRUD-операции
- Видеоурок. Операторы, фильтрация, сортировка и ограничение. Агрегация данных
- Вебинар. Операторы, фильтрация, сортировка и ограничение. Агрегация данных
- Видеоурок. Сложные запросы
- Вебинар. Сложные запросы
- Видеоурок. Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры
- Вебинар. Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры
- Видеоурок. Оптимизация запросов. NoSQL
- Вебинар. Оптимизация запросов
1 месяц — 12 уроков
18 часов контента, 36 часов практики
Основы Python
- Знакомство с Python
- Некоторые встроенные типы и операции с ними
- Функции. Словари
- Функции. Словари
- Генераторы и comprehensions. Множества
- Работа с файлами
- Работа с файловой системой. Исключения в Python
- Регулярные выражения и декораторы в Python
- Объектно-ориентированное программирование (ООП). Введение
- Объектно-ориентированное программирование (ООП). Продвинутый уровень
- Объектно-ориентированное программирование (ООП). Полезные дополнения
1 месяц — 11 уроков
17 часов контента, 34 часа практики
Методы сбора и обработки данных из интернета
- Основы клиент-серверного взаимодействия. Парсинг API
- Парсинг HTML. Beautiful Soup, MongoDB
- Системы управления базами данных MongoDB и SQLite в Python
- Парсинг HTML. XPath
- Фреймворк Scrapy
- Scrapy. Парсинг фото и файлов
- Selenium в Python
- Работа с данными
1 месяц — 8 уроков
12 часов контента, 24 часа практики
Проект
Разработка собственного парсера
II четверть
Построение хранилищ данных для систем аналитики
Познакомитесь с реляционными и нереляционными базами данных, узнаете, как строить хранилища данных и выбирать архитектуры под конкретную задачу.
Курсы
Построение хранилища данных и основы ETL-процессов
- Введение
- Архитектура хранилищ
- Проектирование хранилища, часть 1:
- Проектирование хранилища, часть 2:
- Создание ETL-процесса, часть 1:
- Создание ETL-процесса, часть 2:
- Управление качеством данных
- Курсовой проект
1 месяц — 8 уроков
12 часов контента, 24 часа практики
Технологии OLAP + BI
- Почему OLAP. Готовим ETL и DWH
- Многомерное хранилище. Работа с измерениями
- Создание мер. Процессинг и его оптимизация
- Работа в MDX. Автопроцессинг
- Подключение BI-системы
1 месяц — 4 урока
13 часов контента, 27 часов практики
Введение в NoSQL баз данных. Tarantool
- Подходы к организации NoSQL данных
- Redis
- MongoDB. Часть 1
- MongoDB. Часть 2
- MongoDB. Часть 3
- Tarantool. Часть 1
- Tarantool. Часть 2
1 месяц — 7 уроков
14 часов контента, 12 часов практики
Проект
Хранилище для BI-системы
III четверть
Распределенные базы данных
В данной четверти вы познакомитесь с инструментами обработки больших массивов данных, в первую очередь с инструментами экосистемы Hadoop: HDFS, Yarn, Hive, Hue, Flume, Cassandra и другими. Вы освоите возможности фреймворка Apache Spark для распределённой обработки неструктурированных и слабоструктурированных данных. В конце четверти познакомитесь с популярным инструментом Apache Airflow для планирования и мониторинга пакетных процессов работы с большими данными.
Курсы
Big Data. Экосистема Hadoop
- Введение в Hadoop
- HDFS
- YARN, MR
- Hive, HUE
- Форматы хранения
- ETL
- NoSQL
- DWH
1 месяц — 8 уроков
12 часов контента, 24 часа практики
Big Data. Фреймворк Apache Spark
- Архитектура Spark. Принципы исполнения запросов. Сохранение и чтение данных
- Операции с данными: агрегаты, джойны. Оптимизация SQL-запросов
- Типы данных в Spark. Коллекции как объекты DataFrame. User-defined Functions
- Машинное обучение на PySpark на примере линейной регрессии
1 месяц — 4 урока
6 часов контента, 12 часов практики
Настройка потоков данных. Apache Airflow
- Планирование задач. Введение Apache AirFlow
- Установка Airflow. Создание и основные параметры DAG
- Разработка потоков данных
- Airflow в production. Примеры реальных задач
1 месяц — 4 урока
8 часов контента, 18 часов практики
Проект
Полноценный ETL-пайплайн с использованием инструментов работы с большими данными
IV четверть
Real-time обработка данных и инфраструктура
В последней четверти вы освоите потоковую обработку данных с использованием инструментов Kafka и Spark Streaming. Также освоите практики DevOps, необходимые для работы дата-инженером.
Курсы
Потоковая обработка данных
- Архитектура Kafka, Kafka Workflow
- Kafka Producer и Kafka Consumer
- Kafka Broadcasting and Groups
- Kafka Stream
- Processor API
- Динамические запросы в Apache Kafka
1 месяц — 8 уроков
9 часов контента, 18 часов практики
Микросервисная архитектура и контейнеризация
- Микросервисы и контейнеры
- Docker
- Введение в Kubernetes
- Хранение данных и ресурсы
- Сетевые абстракции Kubernetes
- Устройство кластера
- Продвинутые абстракции
- Деплой тестового приложения в кластер, CI/CD
1 месяц — 8 уроков
12 часов контента, 24 часов практики
Проект
Потоковый сервис для оценки кредитоспособности клиентов банка с использованием машинного обучения
Курсы вне четверти
Предметы с индивидуальным выбором даты старта
Курсы вне четверти являются частью основной программы обучения и обязательны к прохождению. Вы можете формировать часть расписания самостоятельно и регулировать интенсивность обучения. На прохождение этих предметов у вас есть 2.5 года с момента покупки обучения в GeekUniversity. Проходите параллельно с четвертями или после года обучения.
Курсы
Подготовка данных для ML Applications
- Введение в машинное обучение
- Построение ML-модели, часть 1:
- Построение ML-модели, часть 2:
- Подготовка данных для разных задач
1 месяц – 4 урока
6 часов контента, 12 часов практики
Linux. Рабочая станция
- Введение. Установка ОС
- Настройка и знакомство с интерфейсом командной строки
- Пользователи. Управление пользователями и группами
- Загрузка ОС и процессы
- Устройство файловой системы Linux. Понятия файла и каталога
- Введение в скрипты Bash. Планировщики задач crontab и at
- Управление пакетами и репозиториями. Основы сетевой безопасности
- Введение в Docker
1 месяц — 8 уроков
12 часов контента, 24 часа практики
Освойте современные технологии и компетенции
- Data Engineering
- Python
- Jupyter
- SQL
- DDL
- NoSQL
- Linux
- CLI
- HTML
- HTTP
- REST API
- Hadoop
- Map Reduce
- Hive
- HBase
- Hue
- Apache Spark
- PySpark
- Spark Streaming
- Kafka
- Airflow
- MongoDB
- Cassandra
- HDFS
- RDBMS
- DevOps
- Gitlab
- CI/CD
- Docker
- Kubernetes
- Machine Learning
- Разработка, поддержка и оптимизация пайплайнов обработки данных и машинного обучения на Python и Spark
- Проработка архитектуры разрабатываемых решений
- Опыт проектирования аналитических систем хранения и обработки больших данных
- Знание принципов работы БД (SQL/noSQL) и методологий моделирования
- Опыт работы с Airflow и другими инструментами для запуска регулярных задач
- Опыт с Devops (Docker, Kubernetes) инструментами
- Понимание принципов машинного обучения и подготовки данных для ML-приложений
- Опыт работы с ОС Linux
- Сбор процессов очистки и валидации данных
- Опыт работы с ETL-инструментами и сервисами
- Опыт работы с пакетной и потоковой выгрузкой данных в аналитическое хранилище
- Разработка витрин данных для бизнес-пользователей аналитики
- Опыт работы с Hadoop кластером и HDFS, мониторинг своих приложений
Вы получите диплом о профессиональной переподготовке
Вы получаете электронный сертификат и диплом о профессиональной переподготовке, их можно приложить к портфолио и показать работодателю. Обучение проводим на основании гослицензии № 040485.
Отзывы на сайте.
Освойте лучшие практики работы с большими данными: Architecture, Data Lake, DWH, MLOps!
Что даст вам этот курс
- Понимание ключевых способов интеграции, обработки, хранения больших данных
- Умение работать с компонентами экосистемы Hadoop, распределенными хранилищами и облачными решениями
- Практические навыки разработки дата-сервисов, витрин и приложений
- Знание принципов организации мониторинга, оркестрации, тестирования
Курс адресован разработчикам, администраторам СУБД и всем, кто стремится повысить профессиональный уровень, освоить новые инструменты и заниматься интересными задачами в сфере работы с данными.
После обучения Data Engineering вы станете востребованным специалистом, который:
- разворачивает, налаживает и оптимизирует инструменты обработки данных
- адаптирует датасеты для дальнейшей работы и аналитики
- создает сервисы, которые используют результаты обработки больших объемов данных
- отвечает за архитектуру данных в компании
Real Case Studies: примеры внедрений, использования инструментов, оптимизации производительности, проблемы, ошибки и прикладные результаты
Высокая практическая направленность:
В течение курса будем инкрементально создавать работающий продукт, решая прикладные задачи
Целостная картина вызовов и задач современного бизнеса, и роли Инженера Данных в их решении
Востребованность у работодателей
39 работодателей уже готовы позвать на собеседование выпускников курса
Инженер данных — почему это актуально и интересно:
- Прежде чем попасть на стол CEO в виде квартального отчета или индивидуальной подборкой книг в email-рассылке, данные проделывают длительный и сложный, полный преобразований и трансформаций, путь, требующий непрерывного мониторинга и оркестрации.
- В этом ключе команда инженеров, которая готова обеспечить непрерывную поставку достоверной информации для всех бизнес-потребителей и функций играет важнейшую роль в принятии тактических и стратегических решений всей компании.
- Работа инженеров данных, внешне незаметная, удивительно сложна и интересна по своей специфике. Невероятное количество закономерностей и связей, инструментов и подходов, параметров и настроек не оставят равнодушным ни один пытливый ум в поисках оптимальных и элегантных решений.
Необходимые знания
Необходимое:
- Опыт разработки на Java/Python
- Основы работы с БД:SQL, индексы, агрегирующие функции
- Базовые знания ОС:работа с командной строкой, доступ по SSH
Будет плюсом:
- Навыки работы с Docker
- Знакомство с компонентами экосистемы Hadoop
- Понимание основ машинного обучения с позиции Data Scienist-а или аналитика
Вступительное тестирование
Подготовительный курс
Курс рассчитан для программистов и администраторов, которые хотят освоить ОС Linux с нуля.
На курсе мы:
- детально разберем основные команды в Linux и научимся работать в консоли
- познакомимся с зомби, сиротами и демонами
- выясним, что такое ядро операционной системы и системные вызовы
- научимся работать со стандартными потоками ввода/вывода
- разберем некоторые особенности файловой системы ext4
Программа обучения
В процессе обучения вы получите комплексные знания и навыки.
Модуль 1. Data Architecture
Тема 1. Инженер Данных. Задачи, навыки, инструменты, потребность на рынке
Тема 2. Архитектура аналитических приложений: базовые компоненты и принципы
Тема 3. On premises / Cloud solutions
Тема 4. Автоматизация пайплайнов и оркестрация – 1
Тема 5. Автоматизация пайплайнов и оркестрация – 2
Модуль 2. Data Lake
Тема 6. Распределенные файловые системы. HDFS / S3
Тема 7. SQL-доступ к Hadoop. Apache Hive / Presto
Тема 8. Форматы хранения данных и их особенности
Тема 9. Разбор ДЗ по 1 кейсу
Тема 10. Очереди сообщений. Обзор Kafka.
Тема 11. Выгрузка данных из внешних систем
Тема 12. Apache Spark – 1
Тема 13. Apache Spark – 2
Модуль 3. DWH
Тема 14. Аналитические СУБД. MPP-базы данных
Тема 15. Моделирование DWH – 1. Основы работы с dbt
Тема 16. Моделирование DWH – 2. Data Vault 2.0
Тема 17. DevOps практики в Аналитических приложениях. CI + CD
Тема 18. Разбор ДЗ по 2 кейсу
Тема 19. Data Quality. Управление качеством данных
Тема 20. Развертывание BI-решения
Тема 21. Мониторинг / Метаданные
Модуль 4. NoSQL/NewSQL
Тема 22. NoSQL Хранилища. Key-value
Тема 23. NoSQL Хранилища. Document-oriented
Тема 24. ELK
Тема 25. ClickHouse
Тема 26. Разбор ДЗ по 3 кейсу
Модуль 5. MLOps
Тема 27. Организация и Packaging кода
Тема 28. Docker и REST-архитектура
Тема 29. MLFlow + DVC
Тема 30. Деплоймент моделей
Тема 31. Разбор ДЗ по 4 кейсу
Тема 32. Разбор ДЗ по 5 кейсу
Модуль 6. Выпускной проект
Тема 33. Выбор темы и организация проектной работы
Тема 34. Консультация
Тема 35. Защита
После обучения вы
Заберете с собой:
- основные и дополнительные материалы, и видеозаписи занятий;
- образцы кода;
- собственный проект, который можно будет показывать при трудоустройстве;
- сертификат о прохождении обучения.
В результате обучения вы:
- будете иметь представление об основных классах задач Инженера Данных, инструментах, предназначенных для их решения, а также их преимуществах и особенностях;
- научитесь выстраивать пайплайны пакетной и потоковой обработки данных;
- сможете проектировать хранилища данных и организовывать оптимальный доступ для потребителей;
Вы детально изучите все этапы обработки данных и разберете необходимые инструменты для работы с ними, научитесь строить ETL-системы и проектировать хранилища данных.
Пройдите курс DE, и вы сможете:
- Хранить и обрабатывать огромные массивы данных.
- Освоить инструменты Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS и MapReduce.
- Строить собственные Data Platform, которые способны масштабироваться.
- Овладеть профессией, актуальной через 5-10-15 лет.
- Повысить свою квалификацию и уровень дохода.
Кому будет полезен курс
- Data Scientist/
Data Analyst
Вы углубите знания в работе с данными, научитесь строить пайплайны, хранилища, обрабатывать и эффективнее анализировать данные.
- Со знаниями курса вы можете претендовать на позицию архитектора.
- Software/SQL/
ETL Developer
Вы усилите свои компетенции по работе с данными, научитесь самостоятельно строить системы хранения и обработки данных.
- На курсе вы получите знания, необходимые для позиции инженера данных.
- Data Engineer
(beginner)
Вы углубите знания в работе с данными, научитесь строить пайплайны, хранилища, обрабатывать и эффективнее анализировать данные.
- Со знаниями курса вы можете претендовать на позицию архитектора.
Программа курса (занятий)
Введение в Data Engineering
Узнайте всё, что вы хотели о профессии Data Engineer: цели, направления, задачи, обязанности и функция в команде. Сравните Data Engineer vs Big Data Engineer. Ознакомьтесь с технологиями, с которыми вы будете работать во время курса. Поймите, какие задачи решает конкретная Big Data технология.
Python для Data Engineering
Научитесь работать с разными структурами данных: string, list, tuple, set, dictionary. Начните загружать данные из внешних источников с помощью Python. Узнайте специфику работы с модулями Python: import и relative import модулей.
SQL для Data Engineering
Узнайте, для чего используется SQL в Big Data. Научитесь объединять наборы данных при помощи SQL: JOIN, UNION, EXCEPT. Начните использовать SQL для аналитических запросов: аналитические функции, группирование данных, оконные функции. Поймите, как писать быстро-выполняющийся SQL.
Аналитические базы данных
Выявите различия между OLTP и OLAP системами. Поймите техническую реализацию системы управления баз данных, предназначенных для аналитики. Научитесь описывать структуру базы данных при помощи ER-модели для ее будущего конструирования (Crow’s foot notation).
Проектирование хранилищ данных
Узнайте, какое назначение хранилищ данных и какие существуют подходы к их проектированию. Научитесь проектировать (строить) хранилища данных. Освойте навык “представление данных в виде витрин”. Разберите примеры существующих хранилищ данных.
Передача данных между системами. Часть 1
Спроектируйте ETL решение. Поймите, как передавать данные между системами. Научитесь извлекать данные из внешних источников, трансформировать и очищать.
Передача данных между системами. Часть 2
Научитесь создавать, запускать и мониторить ETL при помощи Apache Airflow. Начните описывать ETL процессы, используя Directed Acyclic Graph. Напишите свой оператор Airflow для доступа к API. Подключитесь к внешним источникам данных с помощью Apache Airflow.
Распределенные вычисления. Лекция
Разберитесь с понятием распределенных систем и вычислений. Узнайте, какие задачи они решают и какие готовые решения уже существуют. Выявите отличия распределенных систем от обычных, разберите их преимущества и недостатки. Поймите, что означают свойства распределенных систем и ограничения распределенных систем в САР-теореме для вашей работы. Узнайте, на что стоит обратить внимание при построении распределенных систем и чем можно пожертвовать при решении конкретной задачи.
Экосистема Hadoop для распределенной работы с файлами
Научитесь пользоваться экосистемой Hadoop. Узнайте, в чем предназначение каждой технологии в рамках экосистемы Hadoop. Изучите альтернативы Hadoop. Начните использовать Hadoop Distributed File System.
Распределенная файловая система (HDFS)
Научитесь работать с распределенной файловой системой Hadoop. Ознакомьтесь со спектром решаемых задач. Изучите внутреннюю архитектуру HDFS и особенности её реализации. Научитесь управлять файлами, загружать, выгружать данные, администрировать кластера при помощи HDFS.
Распределенные вычисления (MapReduce)
Освойте технологию MapReduce для параллельных вычислений над большими наборами данных в компьютерных кластерах. Изучите задачи, которые решаются с помощью MapReduce. Научитесь анализировать большие объемы данных с использованием MapReduce
Распределенные вычисления в оперативной памяти (Apache Spark)
Начните обзор технологии Apache Spark, выявите её отличие от MapReduce. Поймите, почему Apache Spark флагманская технология в мире BigData. Узнайте, какие задачи решает Apache Spark. Используйте технологию Apache Spark для организации больших данных.
Работа со структурированными данными при помощи SparkSQL. Часть 1
Начните знакомство со SparkSQL — одним из синтаксисов Apache Spark. Научитесь загружать данные в Spark. Изучите работу Spark со внешними источниками данных. Совершите трансформации над структурированными данными при помощи SparkSQL.
Работа со структурированными данными при помощи SparkSQL. Часть 2
Начните выгрузку данных из Spark. Научитесь проводить аналитику на структурированных данных в Spark.
Оптимизация выполнения задач в Apache Spark
Поймите, как написать эффективный код и ускорить обработку больших данных в Apache Spark. Научитесь выявлять основные проблемы производительности Spark, устраните их. Организуйте данные в кластере Apache Spark.
Потоки данных в Apache Spark
Поймите, чем отличается обработка потоковых данных от статичных. Научитесь обрабатывать потоки данных с помощью Spark Streaming. Разберите пример программы по анализу потоковых данных.
Подведение итогов
Объедините все полученные знания. Создайте data platform. Сделайте обзор полного цикла подготовки и реализации проекта. Начните подготовку к курсовому проекту.
Защита курсового проекта
Получите тему курсового проекта. Ознакомьтесь с форматом работы. Выполните ряд обязательных требований для реализации проекта. Успешно защитите его.
За любым продуктом, сервисом — будь то рекомендательная система на сайте, рассылка персонализированных предложений, кампания по удержанию клиентов — стоят данные. От качества этих данных зависит и качество решений, ведь garbage in — garbage out. За доставку качественных данных из разных источников (например, сайт компании, CRM, соц. сети) отвечает data engineer. Работодатели не могут закрыть вакансии на этих специалистов по полгода.
Что входит в программу
6 лаб
Почти каждую неделю вам нужно будет решать лабораторную работу и суперачивку. Лабы объединены в 2 проекта: lambda-архитектура и kappa-архитектура. Также будет реальный проект с призовым фондом для продвинутых участников.
10+ инструментов
С частью инструментов вы сможете поработать глубоко: Kafka, HDFS, ClickHouse, Spark, Airflow. С частью сможете просто познакомиться на практике: ELK, Flink, Docker, Grafana, Kubernetes и др.
21 занятие
С трансляциями в прямом эфире и видеозаписями в личном кабинете. Занятия устроены так, что преподаватель рассказывает об устройстве того или иного инструмента, демонстрирует разные кейсы работы, показывая подводные камни и best practices.
Для кого эта программа?
-1-
Дата инженеры
У вас есть опыт работы с одними инструментами и хочется получить опыт работы с другими? Вы сможете это сделать, решая наши лабы и упражнения, задавая вопросы нашим преподавателям-практикам.
-2-
Администраторы БД
Вы умеете работать с классическими реляционными БД и хочется получить опыт работы с другими инструментами хранения данных? На программе вы сможете поработать с HDFS, ClickHouse, Kafka, ElasticSearch.
-3-
Менеджеры
Вы занимаетесь развитием продукта или подразделения? На программе вы получите понимание, какие инструменты можно использовать для каких задач, какие у них есть достоинства и недостатки.
Чему вы научитесь
В нашей программе есть три составляющих
Установка
Научитесь самостоятельно устанавливать все инструменты, используемые на программе, пользуясь нашими подробными мануалами.
Настройка
Научитесь подключать инструменты друг к другу, формируя пайплайны, получая baseline-решение.
Тюнинг
Научитесь улучшать быстродействие и отказоустойчивость как отдельных инструментов, так и пайплайнов целиком.
Проект 1. Lambda-архитектура
Лаба 0: подготовка
Деплой кластера в облаке и подключение Kafka
Перед стартом проекта вам нужно будет реализовать подготовительный этап — развертывание собственного кластера в облаке. После чего организовать сбор данных о посещении пользователей различных страниц сайта и их покупках.
Лаба 1 и суперачивка
Batch-layer
В этой лабе вам нужно будет организовать batch-layer в lambda-архитектуре. Вы получите данные из Kafka, положите их на HDFS. Используя Airflow, будете планово перекладывать предобработанные данные в ClickHouse.
Лаба 2 и суперачивка
Speed-layer
Используя Spark Streaming, вам нужно будет построить speed-layer, который будет обрабатывать данные в режиме реального времени, восполняя недостающую информацию в batch-layer.
Лаба 3 и суперачивка
Service-layer
Первый проект завершает тем, что вы подключаете один из BI-инструментов к обоим слоям — batch и speed — для выполнения аналитических запросов в отношении среднего чека и других метрик.
Проект 2. Kappa-архитектура
Лаба 4 и суперачивка
Speed-layer
В рамках этого проекта вам нужно будет построить модель машинного обучения, используя Spark ML, после чего использовать ее для прогнозирования пола и возрастной категории пользователей, заходящих на сайт.
Лаба 5 и суперачивка
Service-layer
Второй проект завершается тем, что вы подключаете BI-инструмент, который по запросу сможет выдавать нужные сегменты аудитории за всю историю существования без использования batch-layer.
Инфраструктура программы
То, с чем вы будете работать каждый день
Кластер
Наша программа — про построение пайплайнов, поэтому каждый участник поднимает свой собственный кластер на GCP, на котором может экспериментировать с инструментами, не мешая другим.
GitHub
Все презентации, jupyter-ноутбуки, лабы, мануалы мы выкладываем в закрытый репозиторий на GitHub. Этот инструмент стал стандартом работы в среде программистов и профессионалов в сфере данных.
Личный кабинет
В нем вы можете проверить правильность выполнения лаб, используя автоматические чекеры. Там же можно смотреть прямые трансляции и видеозаписи занятий.
Slack
Общение во время программы происходит в Slack — удобный мессенджер для команд. Там можно общаться с преподавателями, организаторами, друг с другом. Следить за апдейтами в GitHub и быть в курсе новостей.
Для учебы вам потребуются
Входные требования
Умение программировать на Python 3
Это основной язык программирования, используемый на программе. Хорошо, если вы уже будете знакомы с базовым синтаксисом, циклами, условными операторами, функциями, чтением и записью файлов. Он понадобится для работы со Spark и Airflow.
Базовые знания Linux
В командной строке Linux вы тоже будете много времени проводить, работая со своим кластером. Хорошо, если вы уже будете уметь перемещаться по директориям, создавать и редактировать файлы, заходить на удаленный сервер по ssh.
SQL
На программе вы будете использовать Apache Spark. Знание языка SQL может быть полезно для написания скриптов на SparkSQL. Помимо этого в нескольких лабах вам нужно будет писать небольшие SQL-запросы к ClickHouse.
Hadoop
На программе вы будете разворачивать свой Hadoop-кластер и работать с YARN, HDFS. Хорошо, если вы уже будете знакомы с этими инструментами и будете понимать для чего они нужны.
- Getting start with Data Engineering and Analytics
- Getting Started with Machine Learning и Data Science
- Women in Data Community
- Getting started with SQL for beginners
Занятия в режиме онлайн из любой точки мира
Много практики для портфолио
Реальная востребованность на рынке
Сертификат после прохождения курса
СПИСОК КУРСОВ
Выбери курс для прохождения и овладей необходимыми навыками для получения востребованной и высокооплачиваемой профессией. Все курсы бесплатные
Getting start with Data Engineering and Analytics (DE — 101)
~10 недель, с одним вебинаром в неделю и с домашкой, от простого к сложному, что-то вроде моей карьеры за 10 недель.
Getting Started with Machine Learning и Data Science (ML-101)
Требуется серьезная мотивация и целеустремленность, чтобы закончить курс, и если вы справитесь со всеми модулями курса ML-101, то вы легко справитесь с базовым уровнем задач на позициях Data Science Intern, Junior Data Scientist, Applied Scientist
Курс по поиску работы для аналитических специальностей в России и за рубежом (JH — 101)
Getting started with SQL for beginners
Практический видеокурс по работе с базами данных с использованием языка структурированных запросов SQL (Structured Query Language).
Подойдет тем, кто слышал об SQL, но боялся попробовать
Women in Data Community
Наша цель — создать наиболее комфортную среду для девушек, которые интересуются карьерой в data. В дополнение к основным курсам, коммьюнити — платформа, где можно пообщаться с девушками из data, узнать про карьеры в data и задать любые интересующие вопросы
Для кого подойдут эти курсы:
Аналитики
Изучите инструменты и станете более востребованными специалистами
Маркетологи
Сможете структуризировать данные, увеличить эффективность рекламных каналов
Руководители
Сможете анализировать продажи в разных разрезах и в динамике
Предприниматели
Построите систему аналитики и найдете точки роста для своей компании
Инженеры
Фрилансеры
Финансисты
Сможете сменить специализацию и зарабатывать больше, ваши технические знания упростят обучение
Сможете предлагать дополнительные услуги вашим клиентам или работать на западные компании
Загружать, анализировать данные, строить отчёты
- IBM Data Engineering by IBM
- Data Engineering Foundations by IBM
- Data Engineering, Big Data, and Machine Learning on GCP by Google Cloud
- Preparing for Google Cloud Certification: Cloud Data Engineer by Google Cloud
- Data Warehousing for Business Intelligence by University of Colorado System
- Introduction to Data Engineering by IBM
- Data Science with Databricks for Data Analysts by Databricks
- Big Data by University of California San Diego
- Executive Data Science by Johns Hopkins University
- Python Project for Data Engineering by IBM
- Cloud Data Engineering by Duke University
- Google Data Analytics by Google
- IBM Full Stack Cloud Developer by IBM
- Introduction to Designing Data Lakes on AWS by Amazon Web Services
- Foundations: Data, Data, Everywhere by Google
- Business English for Non-Native Speakers by The Hong Kong University of Science and Technology
- Machine Learning Engineering for Production (MLOps) by DeepLearning.AI
- Software Design and Architecture by University of Alberta
- Preparing for Google Cloud Certification: Cloud Architect by Google Cloud
- Hands-on Foundations for Data Science and Machine Learning with Google Cloud Labs by Google Cloud
Getting Started with Analytics (Data) Engineering — курс про мою работу инженером данных и мой 10+ летний опыт создания аналитических решений в России, Европе, Канаде и США. Если бы я брал на работу инженера данных или BI инженера, я бы хотел, чтобы он обладал знаниями и компетенциями, которые мы затронем в курсе. Курс включает в себя базовые вещи, такие как Business Intelligence инструменты, базы данных, ETL инструменты, облачные вычисления и многое другое. Даже если у вас нету опыта с данными, то это вам не помешает. Первые несколько модулей будут посвящены основам аналитики и классическим задачам: Business Intelligence (отчетность, визуализация, хранилище данных, SQL, Excel, интеграция данных). Это будет достаточно для профессии BI разработчик, Аналитик и тп. Начиная с 5-6 модуля мы начнем углубляться непосредственно в работу Инженера Данных, опираясь на знания, полученные на начальных этапах.
Getting Started with Machine Learning and Data Science (ML-101) — курс от Анастасии Риццо о теории Машинного Обучения и Data Science, с понятной теорией и практическими кейсами из реальной жизни. Курс включает в себя 3 модуля: Первый модуль про теорию машинного Обучения и ДС; Второй модуль посвящен Регрессии (теория и практика); Третий модуль про Классификацию (тоже теория и 2 практических кейса). Курс позволяет вам примерить профессию Data Scientist на себя и особенно подойдет тем, кому страшно, но очень интересно начать изучать данную тематику.
Поиск работы для аналитических специальностей в России и за рубежом — курс от Анастасии Дробышевой. Анастасия профессиональный консультант по рынку труда и карьерному развитию. За 10 лет Анастасия провела более 2 000 карьерных консультаций, специализируется на IT/ digital, internet & e-commerce. Использует лучшие международные практики, полученные в работе с крупными американскими компаниями. В 2017 г. переехала из России в Словению, поэтому не понаслышке знает о поиске работы за границей. Курс включает в себя 5 модулей. Задача курса ー описать весь процесс поиска работы и дать вам инструменты для самостоятельного джобхантинга в любой стране.
Также мне хотелось бы выделить еще один элемент — Аналитическое Комьюнити для Женщин. Я вижу большой спрос на такого рода сообщества на западе и я подумал, что было бы классно иметь такое в русскоязычном сообществе для того, чтобы прекрасная половина могла изучать аналитику и технологии в своей комфортной зоне и со своей скоростью. Я бы хотел, чтобы нашлись заинтересованные девушки, кто будет развивать это направление, а я бы помогал с контентом (на данном этапе в этом направлении пока ничего не делается).