- 1 место. Курс «Профессия Data Engineer» — Skillbox
- 2 место. Курс «Дата-инженер с нуля до middle» — Нетология
- 3 место.Курс «Data Engineering» — SkillFactory
- Курс «Data Engineer» — OTUS
- Курс «Data Engineering» — GeekBrains
- Курс «Data Engineer» — NIX LTD
- Курс «Data Engineer» — НОЧУ ДПО «НЬЮПРОЛАБ»
- Курс «Data Engineer» — KARPOV.COURSES
- Курс «Data Engineer» — ProductStar
- Курс «Data Engineering» — robot_dreams
- Курс «Data Quality Engineering» — EPAM Systems
- Курс «Data Engineering and Analytics» — DATALEARN
- Длительность 18 месяцев
- Проекты на основе реальных задач
- Трудоустройство во время обучения
- Уровень Junior после года обучения.
Дата-инженер собирает информацию, выстраивает инфраструктуру для её хранения и готовит данные для использования другими специалистами.
Задача специалиста — проанализировать сырые данные, отобрать полезные, создать экспериментальные модели и отдать их дата-сайентисту для дальнейшего изучения.
Кому подойдёт этот курс:
- Новичкам
С нуля освоите Python и SQL. Научитесь собирать, анализировать и обрабатывать данные. Решите задачи на основе реальных кейсов и добавите их в портфолио. Сможете начать карьеру в Data Engineering во время обучения. - Программистам
Подтянете математику и статистику, разовьёте аналитическое и алгоритмическое мышление. Получите опыт работы с моделями машинного обучения. Пройдёте процесс от сбора данных до деплоя модели. - Начинающим аналитикам
Научитесь выдвигать гипотезы и делать выводы на основе данных. Сможете писать код на Python и превращать сырые данные в полезную информацию для компании. Сможете работать быстрее и претендовать на Middle-уровень.
Чему вы научитесь:
- Использовать инструменты анализа
Освоите языки Python и SQL. Сможете работать с библиотеками и фреймворками pandas, airflow, spark. - Обрабатывать данные
Узнаете, как подключаться к источникам информации и загружать их в систему. Сможете очищать, сохранять и интегрировать данные. - Тестировать код
Поймёте, как проводить регрессионное тестирование. Сможете тестировать пакеты, пайплайны и обрабатывать ошибки. - Взаимодействовать с заказчиком
Разберётесь, как готовить отчётность и согласовывать инфраструктуру данных. Сможете предоставить корректные данные заказчику. - Разворачивать Data Science проект
Поймёте, как реализовывать загрузку данных и собирать информацию из разных источников. Сможете выстраивать готовый пайплайн проекта. - Работать в команде
Познакомитесь с git и облачными сервисами для совместной работы. Сможете эффективно взаимодействовать со всеми участниками процесса.
Программа
Вас ждут онлайн-лекции и практические задания на основе реальных кейсов.
34 модуля
Базовый уровень
- Введение в Data Science
- Познакомитесь с основными направлениями Data Science. Узнаете, какие задачи решают дата-аналитики, дата-инженеры и специалисты по машинному обучению.
- Пройдёте все этапы работы с данными. Научитесь выявлять проблемы, собирать бизнес-требования. Будете выгружать данные из различных источников, проводить разведочный анализ и готовить датасет к дальнейшему использованию. Обучите и внедрите готовую ML-модель, попробуете себя в роли продуктового и маркетингового аналитика. Узнаете, как формулировать и проверять гипотезы. Освоите базовые инструменты для работы: Python, SQL, Excel, Power Bi, Airflow.
- Основы математики для Data Science
Получите базовые знания по математике для работы с машинным обучением. Поймёте, что такое аппроксимация, интерполяция, функции, регрессии, матрицы и векторы. Научитесь работать с математическими сущностями в Python-библиотеке SymPy. - Основы статистики и теории вероятностей
Поймёте принципы работы со случайными величинами и событиями. Познакомитесь с некоторыми видами распределений и статистическими тестами, которые пригодятся при составлении моделей и проверке гипотез.
Data Engineer Junior
- Вводный блок
Узнаете, чем занимается Data Engineer, какую роль играет в Data Science проекте и какие у него пути карьерного развития. Поймёте, как построен курс и какие темы вы будете изучать. - SQL
- Научитесь манипулировать данными в существующих таблицах, выполнять операции вставки, очистки и обновления данных. Сможете сохранять данные из БД в различные форматы.
- Познакомитесь с оконными функциями и основами подготовки витрин данных, использующих SQL. Научитесь обеспечивать корректную вставку информации в режиме транзакции. Сможете читать и понимать лог транзакций.
- Узнаете, что такое индексы и архитектура индексов, где они применяются. Изучите методы ускорения запросов.
- LVL 2
Рассмотрите типы данных, возможности их преобразования и принцип совместной работы Python и SQL — получение данных из БД, работа с данными и выполнение запросов. Изучите основные понятия схем данных JSON и XML. Сможете настраивать отладку приложений, писать тесты, обезличивать и шифровать данные. - Библиотеки для Python
Узнаете, что такое библиотеки для работы с графиками, обучение с учителем, визуализация метрик и источники датасетов. Научитесь использовать Python и библиотеки для работы с данными. Сможете продолжить изучение Pandas. - Airflow
Рассмотрите ключевые понятия и практики по работе с Airflow. Изучите архитектуру и основы взаимодействия от UI до CLI. Построите свой первый data pipeline. - Основы Spark
- Освоите Spark: узнаете, какими ресурсами вычислений он оперирует, как хранит данные и работает с памятью и диском. Развернёте свой первый локальный стенд.
- Изучите основы RDD: базовые концепции, работу с источниками, actions. Научитесь работать с Dataframe API. Изучите вопросы производительности и оптимизации при использовании Dataframe, источники и типы данных, работу с валидными/невалидными данными, обработку ошибок, UDF, взаимодействие с Python и SQL.
- Основы алгоритмов Machine Learning
Разберёте основные виды моделей машинного обучения, ключевые термины и определения. Изучите алгоритмы регрессии и алгоритмы кластеризации. - Deployment
- Изучите основные этапы подготовки модели к деплою, подходы к построению API и способы обработки ошибок и отладки приложений. Сможете устранять проблемы при деплое и освоите основные инструменты swagger.
- Познакомитесь с ключевыми процессами bash: написанием скриптов, работой с переменными и текстовыми редакторами sed и awk.
Data Engineer Advanced
- Продвинутый уровень
Научитесь пользоваться типовыми средствами мониторинга, настраивать алерты. Будете выбирать архитектуру для хранения данных и работать со сложными типами архитектуры хранилищ. Выстраивать инфраструктуру и пайплайны для обучения ML-моделей.
Бонусные курсы
- Карьера разработчика: трудоустройство и развитие
Узнаете, как выбрать подходящую вакансию, подготовиться к собеседованию и вести переговоры с работодателем. Сможете быстрее получить должность, которая соответствует вашим ожиданиям и умениям. - Система контроля версий Git
Научитесь версионировать изменения в коде, создавать и управлять репозиториями, ветками, разрешать конфликты версий. Узнаете полезные правила работы с Git. - Английский для IT-специалистов
Получите языковые навыки, которые помогут пройти собеседование в иностранную компанию и комфортно общаться в смешанных командах.
Дипломный проект
- Дашборды на основе данных источника
Вы объедините и обработаете данные из различных источников: истории транзакций от партнёров, текстовых логов, выгрузки справочников по API и других. На основе этих данных построите интерактивный отчёт.
Обучение на курсе поможет вам:
- Перейти в профессию с высоким окладом на низкоконкурентном рынке
- Освоить ключевые технологии и опередить запрос рынка
- Прожить опыт 2-3 лет самостоятельного изучения инжиниринга данных.
Кому будет полезен этот курс:
- Системным и сетевым администраторам
Сможете масштабировать инфраструктуру, выбирать из множества разных специфических инструментов, внедрять в продакшн решения коллег - Backend и Fullstack-разработчикам
Сможете вырасти в деньгах и получить интересные задачи. Станете незаменимым сотрудником, погрузитесь в ключевой продукт и его метрики - Новичкам, желающим войти в сферу Data Science
Сможете влиться в новую сферу и приобрести базу, с которой можно постоянно развиваться — в любых компаниях и продуктах.
Чему вы научитесь:
- Объяснять архитектуру и структуру базы данных
Проектировать схемы хранилищ и выбирать DWH под задачу и бюджет бизнеса среди популярных решений: Snowflake, BigQuery, Azure SQL DW, Redshift - Создавать процессы обработки данных
Настраивать и конфигурировать ETL / ELT-процессы в нескольких дата-инструментах - Работать с основными инструментами обработки больших данных
Lambda architecture, kappa architecture, а также hdfs, yarn, hive и другими обязательными частями инфраструктуры - Обрабатывать события в режиме реального времени
Построите свой конвейер обработки даннных, сборщик событий, RTDM-систему с выводом в массовые enterprise BI-решения - Разовьёте навык data literacy
Сможете понимать, пояснять и обогащать данные отчётов, дашбордов и других источников информации - Строить работающий пайплайн в облачной среде
И включать в него модели машинного обучения, нейронные сети, сервисы оркестрирования контейнеров и проверку версионности.
Программа курса:
- SQL и получение данных
- Основы баз данных
- Работа с базами данных
- Основы SQL
- Продвинутый SQL
- Углубление в SQL
- Работа с PostgreSQL
- Работа с MongoDB.
- Data Warehouse
Научим работать с классическим хранилищем данных. - Business Intelligence решения и многомерная модель данных
- BI как сердце аналитики
- Многомерные модели
- Real-time отчётность
- Современные подходы.
- Python
- Основы Python
- Введение в анализ данных на Python
- Статистика в Python
- Предобработка данных
- Feature Selection.
- Data Lake & Hadoop
Познакомим с основным инструментом обработки больших данных. - Продвинутые методы работы с данными
- Apache Spark
- Работа со Spark
- Spark SQL
- Продвинутый Spark
- Airflow
- Работа с Airflow
- Продвинутый Airflow
- Dbt как инструмент ETL.
- Работа с потоковыми данными
Научим работать с потоковыми данными. - Работа с данными в облаке
- Google Cloud Platform — хранение данных
- Spark в GCP
- Managed ETL в GCP
- Обработка real-time данных в GCP
- Поиск инсайтов в данных при помощи ML
- Другие облачные провайдеры.
- Введение в DS & ML
- Введение в машинное обучение
- Задача классификации
- Задача кластеризации
- Ансамблевые методы решения задачи классификации
- Feature engineering
- Нейронные сети.
- MLOps
- Зачем нужен DevOps
- Docker и микросервисная архитектура
- K8S
- Орекстраторы
- CI/CD
- Мониторинг
- Инструменты DevOps для обучения ML-моделей
- Deploy ML-моделей.
- Дипломный проект
Разработка и документирование ETL-процессов заливки данных в хранилище.
Курс ориентирован на практику и основные инструменты, подходит для тех, кто имеет базовые знания языка Python. За два месяца вы освоите все важные этапы Data Engineering.
Программа курса:
- Введение, практический linux
Кто такой Data Engineer и зачем ему Linux? - Современные хранилища данных
Разнообразие баз данных и их особенности - Экосистема Hadoop
Что такое Hadoop, что он умеет и как им пользоваться - Источники данных и работа с ними
Файлы как источники данных, JDBC — структурированные данные, SQL для выгрузки данных - Apache Spark и обработка данных
Зачем нужен Apache Spark и как с ним работать - Hadoop как хранилище данных
Особенности и нюансы hdfs - Apache Airflow для оркестрации конвейеров
Настройка data pipelines - Обзор облачных хранилищ
Особенности и нюансы работы с облачными хранилищами: Google, Amazon, Azure.
На курсе обучение не заканчивается:
- Портфолио
Готовый код и пайплайны для портфолио - Развитие карьеры и бизнеса
Помощь с трудоустройством и стажировкой
Тусовка специалистов и полезные знакомства. - Сертификат школы SkillFactory.
Что даст вам этот курс:
- Понимание ключевых способов интеграции, обработки, хранения больших данных
- Умение работать с компонентами экосистемы Hadoop, распределенными хранилищами и облачными решениями
- Практические навыки разработки дата-сервисов, витрин и приложений
- Знание принципов организации мониторинга, оркестрации, тестирования
Курс адресован разработчикам, администраторам СУБД и всем, кто стремится повысить профессиональный уровень, освоить новые инструменты и заниматься интересными задачами в сфере работы с данными.
После обучения Data Engineering вы станете востребованным специалистом, который:
- разворачивает, налаживает и оптимизирует инструменты обработки данных
- адаптирует датасеты для дальнейшей работы и аналитики
- создает сервисы, которые используют результаты обработки больших объемов данных
- отвечает за архитектуру данных в компании
Программа обучения:
Модуль 1. Data Architecture
- Тема 1. Инженер Данных. Задачи, навыки, инструменты, потребность на рынке
- Тема 2. Архитектура аналитических приложений: базовые компоненты и принципы
- Тема 3. On premises / Cloud solutions
- Тема 4. Автоматизация пайплайнов и оркестрация – 1
- Тема 5. Автоматизация пайплайнов и оркестрация – 2
Модуль 2. Data Lake
- Тема 6. Распределенные файловые системы. HDFS / S3
- Тема SQL-доступ к Hadoop. Apache Hive / Presto
- Тема Форматы хранения данных и их особенности
- Тема 9. Разбор ДЗ по 1 кейсу
- Тема 10. Очереди сообщений. Обзор Kafka.
- Тема 11. Выгрузка данных из внешних систем
- Тема 12. Apache Spark – 1
- Тема 13. Apache Spark – 2
Модуль 3. DWH
- Тема 14. Аналитические СУБД. MPP-базы данных
- Тема 15. Моделирование DWH – 1. Основы работы с dbt
- Тема 16. Моделирование DWH – 2. Data Vault 2.0
- Тема 17. DevOps практики в Аналитических приложениях. CI + CD
- Тема 18. Разбор ДЗ по 2 кейсу
- Тема 19. Data Quality. Управление качеством данных
- Тема 20. Развертывание BI-решения
- Тема 21. Мониторинг / Метаданные
Модуль 4. NoSQL/NewSQL
- Тема 22. NoSQL Хранилища. Wide-column и key-value
- Тема NoSQL Хранилища. Document-oriented
- Тема ELK
- Тема 25. ClickHouse
- Тема 26. Разбор ДЗ по 3 кейсу
Модуль 5. MLOps
- Тема 27. Организация и Packaging кода
- Тема 28. Docker и REST-архитектура
- Тема 29. MLFlow + DVC
- Тема 30. Деплоймент моделей
- Тема 31. Разбор ДЗ по 4 кейсу
- Тема 32. Разбор ДЗ по 5 кейсу
Модуль 6. Выпускной проект
- Тема 33. Выбор темы и организация проектной работы
- Тема 34. Консультация
- Тема 35. Защита.
Выпускной проект: реализация задачи по интересующей теме с применением комплекса знаний, полученных в рамках курса.
После обучения вы
Заберете с собой:
- основные и дополнительные материалы, и видеозаписи занятий;
- образцы кода;
- собственный проект, который можно будет показывать при трудоустройстве;
- сертификат о прохождении обучения.
В результате обучения вы:
- будете иметь представление об основных классах задач Инженера Данных, инструментах, предназначенных для их решения, а также их преимуществах и особенностях;
- научитесь выстраивать пайплайны пакетной и потоковой обработки данных;
- сможете проектировать хранилища данных и организовывать оптимальный доступ для потребителей;
Вы научитесь собирать и обрабатывать данные, проектировать хранилища и работать с инфраструктурой. Повысьте квалификацию и уровень дохода вместе с GeekBrains.
После курса вы сможете работать по специальностям:
- Data Engineer
- Инженер дата-центра
- DWH-аналитик
- Инженер пайплайнов данных для машинного обучения (ML Engineer)
- А также владеть DevOps компетенциями.
Кому подойдёт курс:
- Всем, кому интересно работать с данными.
Вы научитесь обрабатывать самые разные источники и форматы данных, освоите обработку больших массивов данных (BigData) на распределенных системах, максимизируйте пользу, извлекаемую из данных. - Начинающим аналитикам и разработчикам.
У вас будет всё для ускоренного карьерного роста: комплексные знания и опыт работы с продвинутыми инструментами, методологиями и стандартами. Прокачайте свои навыки для выхода на новый уровень. - Практикующим IT-специалистам.
Рассмотрим знакомые темы с новых углов, приумножим имеющиеся знания, подскажем, как перейти в востребованное направление и зарабатывать больше.
Программа курса:
Подготовительный блок
Мы рекомендуем пройти подготовительные курсы, чтобы закрыть возможные пробелы в знаниях.
- Базовый курс
I четверть. Сбор и хранение данных
Вы погрузитесь в профессию дата-инженера: познакомитесь с понятием базы данных, научитесь использовать SQL, создавать запросы, программировать на Python. Также познакомитесь с открытыми данными, RESTful и SOAP-сервисами, форматами XML и JSON.
- Основы реляционных баз данных. MySQL
- Основы Python
- Методы сбора и обработки данных из интернета
- Проект: Разработка собственного парсера
II четверть. Построение хранилищ данных для систем аналитики
Познакомитесь с реляционными и нереляционными базами данных, узнаете, как строить хранилища данных и выбирать архитектуры под конкретную задачу.
- Построение хранилища данных и основы ETL-процессов
- Технологии OLAP + BI
- Введение в NoSQL баз данных. Tarantool
- Проект: Хранилище для BI-системы
III четверть. Распределенные базы данных
В данной четверти вы познакомитесь с инструментами обработки больших массивов данных, в первую очередь с инструментами экосистемы Hadoop: HDFS, Yarn, Hive, Hue, Flume, Cassandra и другими. Вы освоите возможности фреймворка Apache Spark для распределённой обработки неструктурированных и слабоструктурированных данных. В конце четверти познакомитесь с популярным инструментом Apache Airflow для планирования и мониторинга пакетных процессов работы с большими данными.
- Big Data. Экосистема Hadoop
- Big Data. Фреймворк Apache Spark
- Настройка потоков данных. Apache Airflow
- Проект: Полноценный ETL-пайплайн с использованием инструментов работы с большими данными.
IV четверть. Real-time обработка данных и инфраструктура
В последней четверти вы освоите потоковую обработку данных с использованием инструментов Kafka и Spark Streaming. Также освоите практики DevOps, необходимые для работы дата-инженером.
- Потоковая обработка данных
- Микросервисная архитектура и контейнеризация
- Проект: Потоковый сервис для оценки кредитоспособности клиентов банка с использованием машинного обучения
Курсы вне четверти
Предметы с индивидуальным выбором даты старта
Курсы вне четверти являются частью основной программы обучения и обязательны к прохождению. Вы можете формировать часть расписания самостоятельно и регулировать интенсивность обучения. На прохождение этих предметов у вас есть 2.5 года с момента покупки обучения в GeekUniversity. Проходите параллельно с четвертями или после года обучения.
- Подготовка данных для ML Applications
- Рабочая станция.
Вы получаете электронный сертификат и диплом о профессиональной переподготовке, их можно приложить к портфолио и показать работодателю.
Этот курс для тех, у кого есть базовые знания баз данных, стремление изучить теорию и отработать ее на практике, а также желание перейти от слов к действию. Полученные скиллы станут веским аргументом для твоего дебюта в качестве Junior Data Engineer в NIX.
- научиться всему, что знает и умеет Junior Data Engineer.
- отпраздновать удачное окончание курсов и утвердиться в гордом титуле Junior Data Engineer, став членом большой команды NIX.
Что входит в программу:
- 6 лаб
Почти каждую неделю вам нужно будет решать лабораторную работу и суперачивку. Лабы объединены в 2 проекта: lambda-архитектура и kappa-архитектура. Также будет реальный проект с призовым фондом для продвинутых участников. - 10+ инструментов
С частью инструментов вы сможете поработать глубоко: Kafka, HDFS, ClickHouse, Spark, Airflow. С частью сможете просто познакомиться на практике: ELK, Flink, Docker, Grafana, Kubernetes и др. - 21 занятие
С трансляциями в прямом эфире и видеозаписями в личном кабинете. Занятия устроены так, что преподаватель рассказывает об устройстве того или иного инструмента, демонстрирует разные кейсы работы, показывая подводные камни и best practices.
Для кого эта программа?
- Дата инженеры
У вас есть опыт работы с одними инструментами и хочется получить опыт работы с другими? Вы сможете это сделать, решая наши лабы и упражнения, задавая вопросы нашим преподавателям-практикам. - Администраторы БД
Вы умеете работать с классическими реляционными БД и хочется получить опыт работы с другими инструментами хранения данных? На программе вы сможете поработать с HDFS, ClickHouse, Kafka, ElasticSearch. - Менеджеры
Вы занимаетесь развитием продукта или подразделения? На программе вы получите понимание, какие инструменты можно использовать для каких задач, какие у них есть достоинства и недостатки.
Чему вы научитесь:
В нашей программе есть три составляющих
- Установка
Научитесь самостоятельно устанавливать все инструменты, используемые на программе, пользуясь нашими подробными мануалами. - Настройка
Научитесь подключать инструменты друг к другу, формируя пайплайны, получая baseline-решение. - Тюнинг
Научитесь улучшать быстродействие и отказоустойчивость как отдельных инструментов, так и пайплайнов целиком.
Проект 1. Lambda-архитектура
- Деплой кластера в облаке и подключение Kafka
Перед стартом проекта вам нужно будет реализовать подготовительный этап — развертывание собственного кластера в облаке. После чего организовать сбор данных о посещении пользователей различных страниц сайта и их покупках. - Batch-layer
В этой лабе вам нужно будет организовать batch-layer в lambda-архитектуре. Вы получите данные из Kafka, положите их на HDFS. Используя Airflow, будете планово перекладывать предобработанные данные в ClickHouse. - Speed-layer
Используя Spark Streaming, вам нужно будет построить speed-layer, который будет обрабатывать данные в режиме реального времени, восполняя недостающую информацию в batch-layer. - Service-layer
Первый проект завершает тем, что вы подключаете один из BI-инструментов к обоим слоям — batch и speed — для выполнения аналитических запросов в отношении среднего чека и других метрик.
Проект 2. Kappa-архитектура
- Speed-layer
В рамках этого проекта вам нужно будет построить модель машинного обучения, используя Spark ML, после чего использовать ее для прогнозирования пола и возрастной категории пользователей, заходящих на сайт. - Service-layer
Второй проект завершается тем, что вы подключаете BI-инструмент, который по запросу сможет выдавать нужные сегменты аудитории за всю историю существования без использования batch-layer.
Для кого:
- Для аналитиков и дата-сайентистов
Понимание инженерии данных даст представление о том, что происходит за пределами очистки и анализа датасетов, и позволит выйти на качественно новый уровень в аналитике. - Для разработчиков
Программа поможет понять проблематику построения хранилища данных и покажет, как применить свой опыт разработки для решения задач в области инженерии данных.
Вы освоите:
- Проектирование DWH
В этом модуле мы познакомимся с верхнеуровневой логической архитектурой DWH, разберём её основные компоненты, которые будут освещены далее в курсе, а также рассмотрим в теории и разберём на практике разные подходы к проектированию детального слоя. - Реляционные и MPP СУБД
В этом модуле познакомимся с реляционными и MPP базами данных, рассмотрим, как они работают изнутри, и узнаем, что и в каком случае лучше выбрать. Изучим архитектуру разнообразных решений на рынке. Попрактикуемся готовить PostgreSQL и MPP на примере GreenPlum. - Big Data
В этом модуле познакомимся с механизмами распределённого хранения и обработки данных на базе Hadoop стека. Разберём основные паттерны реализации распределённой обработки. Рассмотрим вопросы отказоустойчивости и восстановления после сбоев. Коснёмся потоковой обработки данных и уделим внимание методам и средствам мониторинга и профилирования spark заданий. - ETL
В этом модуле познакомимся с Apache Airflow, научимся его настраивать и строить с его помощью пайплайны. - Хранилище в облаках
В этом модуле познакомимся с облаками и инструментами для построения DWH и Data Lake, рассмотрим основы Kubernetes и получим практические навыки применения Kubernetes для работы с данными. - Визуализация
В этом модуле познакомимся с Tableau — одним из самых мощных BI-инструментов. Рассмотрим основные принципы работы с данными с точки зрения их визуализации. - Big ML
В этом блоке познакомимся с модулем Spark ML. Изучим подходы по обучению и применению моделей машинного обучения на больших данных. - Управление моделями
В этом модуле рассмотрим применяемые инструменты для помощи в построении ML пайпланов, версионирования датасетов и организации учета и трекинга ML моделей. - Управление данными.
В этом блоке познакомимся с подходами, применяемыми компаниями для управления данными. Разберем подходы для управления данными, происхождения данных и контроля качества данных.
Чему вы научитесь:
- Работать SQL
Научитесь писать запросы, работать с данными в базе без переноса в таблицы, загружать данные и сохранять историю, работать с разными форматами файлов - Использовать Python и библиотеки анализа данных
Автоматизировать работу с большими массивами, получать данные из внешних источников, обосновывать выводы, сделанные на основании данных - Оптимизировать системы работы с данными
Научитесь создавать необходимые условия для хранения и организации полезных данных всей компании. Настраивать и конфигурировать ETL / ELT-процессы в нескольких дата-инструментах - Объяснять архитектуру и структуру базы данных
Проектировать схемы хранилищ и выбирать DWH под задачу и бюджет бизнеса среди популярных решений: Snowflake, BigQuery, Azure SQL DW, Redshift.
Программа курса (60 лекций и воркшопов)
Блок 1: «Получение и подготовка данных: SQL»
- Основы SQL
- Обновление, добавление и удаление данных. Работа с таблицами
- Представления и хранимые процедуры. Особенности обработки транзакций
- Расширенные возможности SQL и основные ограничения
- Фильтрация данных и вычисляемые поля — практика (SELECT, SUM, AVG, GROUP BY, ..)
- Группировка данных, подзапросы и объединение таблиц — практика (INNER, LEFT, RIGHT, DISTINCT)
- Обновление, добавление и удаление данных. Работа с таблицами (INSERT, UPDATE, DELETE, MERGE, FOREIGN KEY)
- Работа с популярными программами (MySQL, SQL Server, Redash, Tableau)
Блок 2: «Python, мат.модели и обработка данных»
- Python: настройка окружения, базовые структуры данных и основные операторы
- Python: работа с файлами и форматированный вывод
- Python: пространства имен и области видимости, классы и объекты
- Python: инструменты функционального программирования
- Python: стандартные и сторонние библиотеки Python для анализа данных
- Основы линейной алгебры и теории множеств
- Методы математической оптимизации
- Основы описательной статистики
- Статистический анализ данных
Блок 3: «Data Warehouse»
- Проектирование хранилища данных
- Организация работы с традиционными хранилищами данных
- ETL / ELT-процессы: знакомство с Pentaho
- ETL-pro
- Заливка данных и создание OLAP-кубов
- Data Governance
- Изучение Snowflake, BigQuery: плюсы и минусы
- Практика с Azure SQL DW
- Практика работы с Redshift и выгрузки данных
- DWH в облаке
Блок 4: «Business Intelligence-решения и аналитика больших данных»
- Установка и настройка Power BI
- Подключение к данным: загрузка стационарных файлов, загрузка файлов из папок
- Очистка и преобразование данных: типы данных, фильтрация данных
- Знакомство с инфраструктурой Tableau. Загрузка данных. Первый дашборд
- Tableau Professional.
- Подключение к базам данных SQL Основы работы с Tableau Server
- Знакомство с Pentaho BI
- Многомерные модели. Pentaho Analysis Services
- Машинные методы для обработки данных
- Культура сбора и источники данных
- Предобработка и визуализация данных в pandas
- Улучшение качества работы с данными
- Основы архитектуры хранения и обработки больших данных, виды обработки и масштабирования
- Основы работы в Hadoop и MapReduce
- Работа с облачными платформами: AWS, EMR, Azure
- Продвинутые подходы в MapReduce
- Организация команды для работы с данными. CRISP-DM
Блок 5: Дипломная работа и помощь с трудоустройством
- Работа над дипломным проектом для портфолио
- Подготовка резюме
- Подготовка к собеседованию
- Финальная защита и консультации.
Выпускники получают сертификат об успешном прохождении курса — что, вместе с дипломным проектом, будет хорошим аргументом при трудоустройстве.
Пройдите курс DE, и вы сможете:
- Хранить и обрабатывать огромные массивы данных.
- Освоить инструменты Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS и
- Строить собственные Data Platform, которые способны масштабироваться.
- Овладеть профессией, актуальной через 5-10-15 лет.
- Повысить свою квалификацию и уровень дохода.
Кому будет полезен курс:
- Data Scientist / Data Analyst
Вы углубите знания в работе с данными, научитесь строить пайплайны, хранилища, обрабатывать и эффективнее анализировать данные.
Со знаниями курса вы можете претендовать на позицию архитектора. - Software/SQL / ETL Developer
Вы усилите свои компетенции по работе с данными, научитесь самостоятельно строить системы хранения и обработки данных.
На курсе вы получите знания, необходимые для позиции инженера данных. - Data Engineer (beginner)
Вы углубите знания в работе с данными, научитесь строить пайплайны, хранилища, обрабатывать и эффективнее анализировать данные.
Со знаниями курса вы можете претендовать на позицию архитектора.
Программа курса
- Введение в Data Engineering
Узнайте всё, что вы хотели о профессии Data Engineer: цели, направления, задачи, обязанности и функция в команде. Сравните Data Engineer vs Big Data Engineer. Ознакомьтесь с технологиями, с которыми вы будете работать во время курса. Поймите, какие задачи решает конкретная Big Data технология. - Python для Data Engineering
Научитесь работать с разными структурами данных: string, list, tuple, set, dictionary. Начните загружать данные из внешних источников с помощью Python. Узнайте специфику работы с модулями Python: import и relative import модулей. - SQL для Data Engineering
Узнайте, для чего используется SQL в Big Data. Научитесь объединять наборы данных при помощи SQL: JOIN, UNION, EXCEPT. Начните использовать SQL для аналитических запросов: аналитические функции, группирование данных, оконные функции. Поймите, как писать быстро-выполняющийся SQL. - Аналитические базы данных
Выявите различия между OLTP и OLAP системами. Поймите техническую реализацию системы управления баз данных, предназначенных для аналитики. Научитесь описывать структуру базы данных при помощи ER-модели для ее будущего конструирования (Crow’s foot notation). - Проектирование хранилищ данных
Узнайте, какое назначение хранилищ данных и какие существуют подходы к их проектированию. Научитесь проектировать (строить) хранилища данных. Освойте навык “представление данных в виде витрин”. Разберите примеры существующих хранилищ данных. - Передача данных между системами. Часть 1
Спроектируйте ETL решение. Поймите, как передавать данные между системами. Научитесь извлекать данные из внешних источников, трансформировать и очищать. - Передача данных между системами. Часть 2
Научитесь создавать, запускать и мониторить ETL при помощи Apache Airflow. Начните описывать ETL процессы, используя Directed Acyclic Graph. Напишите свой оператор Airflow для доступа к API. Подключитесь к внешним источникам данных с помощью Apache Airflow. - Распределенные вычисления. Лекция
Разберитесь с понятием распределенных систем и вычислений. Узнайте, какие задачи они решают и какие готовые решения уже существуют. Выявите отличия распределенных систем от обычных, разберите их преимущества и недостатки. Поймите, что означают свойства распределенных систем и ограничения распределенных систем в САР-теореме для вашей работы. Узнайте, на что стоит обратить внимание при построении распределенных систем и чем можно пожертвовать при решении конкретной задачи. - Экосистема Hadoop для распределенной работы с файлами
Научитесь пользоваться экосистемой Hadoop. Узнайте, в чем предназначение каждой технологии в рамках экосистемы Hadoop. Изучите альтернативы Hadoop. Начните использовать Hadoop Distributed File System. - Распределенная файловая система (HDFS)
Научитесь работать с распределенной файловой системой Hadoop. Ознакомьтесь со спектром решаемых задач. Изучите внутреннюю архитектуру HDFS и особенности её реализации. Научитесь управлять файлами, загружать, выгружать данные, администрировать кластера при помощи HDFS. - BigData архитектуры
Освойте технологию MapReduce для параллельных вычислений над большими наборами данных в компьютерных кластерах. Изучите задачи, которые решаются с помощью MapReduce. Научитесь анализировать большие объемы данных с использованием MapReduce - Распределенные вычисления в оперативной памяти (Apache Spark)
Начните обзор технологии Apache Spark, выявите её отличие от MapReduce. Поймите, почему Apache Spark флагманская технология в мире BigData. Узнайте, какие задачи решает Apache Spark. Используйте технологию Apache Spark для организации больших данных. - Работа со структурированными данными при помощи SparkSQL. Часть 1
Начните знакомство со SparkSQL — одним из синтаксисов Apache Spark. Научитесь загружать данные в Spark. Изучите работу Spark со внешними источниками данных. Совершите трансформации над структурированными данными при помощи SparkSQL. - Работа со структурированными данными при помощи SparkSQL. Часть 2
Начните выгрузку данных из Spark. Научитесь проводить аналитику на структурированных данных в Spark. - Оптимизация выполнения задач в Apache Spark
Поймите, как написать эффективный код и ускорить обработку больших данных в Apache Spark. Научитесь выявлять основные проблемы производительности Spark, устраните их. Организуйте данные в кластере Apache Spark. - Потоки данных в Apache Spark
Поймите, чем отличается обработка потоковых данных от статичных. Научитесь обрабатывать потоки данных с помощью Spark Streaming. Разберите пример программы по анализу потоковых данных. - Подведение итогов
Объедините все полученные знания. Создайте data platform. Сделайте обзор полного цикла подготовки и реализации проекта. Начните подготовку к курсовому проекту. - Защита курсового проекта
Получите тему курсового проекта. Ознакомьтесь с форматом работы. Выполните ряд обязательных требований для реализации проекта. Успешно защитите его.
Data Engineering – это работа с данными и Big Data: программирование сбора, хранения, обработки, поиска и визуализации.
Тренинг поможет Вам:
- Изучить современные технологии обработки и анализа данных;
- Научиться применять Python (включая пакеты Pandas, NumPy);
- Освоить SQL как универсальный «язык доступа к данным»;
- Приобрести опыт работы с Data Warehouses;
- Изучить основы Linux для использования облачных сервисов;
- Познакомиться с классической теорией тестирования ПО.
Для кого:
- Для студентов 4-6 курсов технических специальностей, выпускников и молодых специалистов;
- Для тех, кто хочет обучаться и развиваться в направлении Data Quality.
Список курсов:
- Getting start with Data Engineering and Analytics (DE — 101)
~10 недель, с одним вебинаром в неделю и с домашкой, от простого к сложному, что-то вроде моей карьеры за 10 недель. - Getting Started with Machine Learning и Data Science (ML-101)
Требуется серьезная мотивация и целеустремленность, чтобы закончить курс, и если вы справитесь со всеми модулями курса ML-101, то вы легко справитесь с базовым уровнем задач на позициях Data Science Intern, Junior Data Scientist, Applied Scientist - Курс по поиску работы для аналитических специальностей в России и за рубежом (JH — 101)
- Getting started with SQL for beginners
Практический видеокурс по работе с базами данных с использованием языка структурированных запросов SQL (Structured Query Language).
Подойдет тем, кто слышал об SQL, но боялся попробовать - Women in Data Community
Наша цель — создать наиболее комфортную среду для девушек, которые интересуются карьерой в data. В дополнение к основным курсам, коммьюнити — платформа, где можно пообщаться с девушками из data, узнать про карьеры в data и задать любые интересующие вопросы.
Для кого подойдут эти курсы:
- Аналитики
Изучите инструменты и станете более востребованными специалистами - Маркетологи
Сможете структуризировать данные, увеличить эффективность рекламных каналов - Руководители
Сможете анализировать продажи в разных разрезах и в динамике - Предприниматели
Построите систему аналитики и найдете точки роста для своей компании - Инженеры
Сможете сменить специализацию и зарабатывать больше, ваши технические знания упростят обучение - Фрилансеры
Сможете предлагать дополнительные услуги вашим клиентам или работать на западные компании - Финансисты
Загружать, анализировать данные, строить отчёты.