ТОП-12 курсов Data Engineer в 2024 году: обучение онлайн. Платные и бесплатные. Рейтинг, сравнение, стоимость.

Стоимость: цену уточняйте на сайте.
  • Длительность 18 месяцев
  • Проекты на основе реальных задач
  • Трудоустройство во время обучения
  • Уровень Junior после года обучения.

Дата-инженер собирает информацию, выстраивает инфраструктуру для её хранения и готовит данные для использования другими специалистами.

Задача специалиста — проанализировать сырые данные, отобрать полезные, создать экспериментальные модели и отдать их дата-сайентисту для дальнейшего изучения.

Кому подойдёт этот курс:

  • Новичкам
    С нуля освоите Python и SQL. Научитесь собирать, анализировать и обрабатывать данные. Решите задачи на основе реальных кейсов и добавите их в портфолио. Сможете начать карьеру в Data Engineering во время обучения.
  • Программистам
    Подтянете математику и статистику, разовьёте аналитическое и алгоритмическое мышление. Получите опыт работы с моделями машинного обучения. Пройдёте процесс от сбора данных до деплоя модели.
  • Начинающим аналитикам
    Научитесь выдвигать гипотезы и делать выводы на основе данных. Сможете писать код на Python и превращать сырые данные в полезную информацию для компании. Сможете работать быстрее и претендовать на Middle-уровень.

Чему вы научитесь:

  1. Использовать инструменты анализа
    Освоите языки Python и SQL. Сможете работать с библиотеками и фреймворками pandas, airflow, spark.
  2. Обрабатывать данные
    Узнаете, как подключаться к источникам информации и загружать их в систему. Сможете очищать, сохранять и интегрировать данные.
  3. Тестировать код
    Поймёте, как проводить регрессионное тестирование. Сможете тестировать пакеты, пайплайны и обрабатывать ошибки.
  4. Взаимодействовать с заказчиком
    Разберётесь, как готовить отчётность и согласовывать инфраструктуру данных. Сможете предоставить корректные данные заказчику.
  5. Разворачивать Data Science проект
    Поймёте, как реализовывать загрузку данных и собирать информацию из разных источников. Сможете выстраивать готовый пайплайн проекта.
  6. Работать в команде
    Познакомитесь с git и облачными сервисами для совместной работы. Сможете эффективно взаимодействовать со всеми участниками процесса.

Программа

Вас ждут онлайн-лекции и практические задания на основе реальных кейсов.
34 модуля

Базовый уровень

  1. Введение в Data Science
  • Познакомитесь с основными направлениями Data Science. Узнаете, какие задачи решают дата-аналитики, дата-инженеры и специалисты по машинному обучению.
  • Пройдёте все этапы работы с данными. Научитесь выявлять проблемы, собирать бизнес-требования. Будете выгружать данные из различных источников, проводить разведочный анализ и готовить датасет к дальнейшему использованию. Обучите и внедрите готовую ML-модель, попробуете себя в роли продуктового и маркетингового аналитика. Узнаете, как формулировать и проверять гипотезы. Освоите базовые инструменты для работы: Python, SQL, Excel, Power Bi, Airflow.
  1. Основы математики для Data Science
    Получите базовые знания по математике для работы с машинным обучением. Поймёте, что такое аппроксимация, интерполяция, функции, регрессии, матрицы и векторы. Научитесь работать с математическими сущностями в Python-библиотеке SymPy.
  2. Основы статистики и теории вероятностей
    Поймёте принципы работы со случайными величинами и событиями. Познакомитесь с некоторыми видами распределений и статистическими тестами, которые пригодятся при составлении моделей и проверке гипотез.

Data Engineer Junior

  1. Вводный блок
    Узнаете, чем занимается Data Engineer, какую роль играет в Data Science проекте и какие у него пути карьерного развития. Поймёте, как построен курс и какие темы вы будете изучать.
  2. SQL
  • Научитесь манипулировать данными в существующих таблицах, выполнять операции вставки, очистки и обновления данных. Сможете сохранять данные из БД в различные форматы.
  • Познакомитесь с оконными функциями и основами подготовки витрин данных, использующих SQL. Научитесь обеспечивать корректную вставку информации в режиме транзакции. Сможете читать и понимать лог транзакций.
  • Узнаете, что такое индексы и архитектура индексов, где они применяются. Изучите методы ускорения запросов.
  1. LVL 2
    Рассмотрите типы данных, возможности их преобразования и принцип совместной работы Python и SQL — получение данных из БД, работа с данными и выполнение запросов. Изучите основные понятия схем данных JSON и XML. Сможете настраивать отладку приложений, писать тесты, обезличивать и шифровать данные.
  2. Библиотеки для Python
    Узнаете, что такое библиотеки для работы с графиками, обучение с учителем, визуализация метрик и источники датасетов. Научитесь использовать Python и библиотеки для работы с данными. Сможете продолжить изучение Pandas.
  3. Airflow
    Рассмотрите ключевые понятия и практики по работе с Airflow. Изучите архитектуру и основы взаимодействия от UI до CLI. Построите свой первый data pipeline.
  4. Основы Spark
  • Освоите Spark: узнаете, какими ресурсами вычислений он оперирует, как хранит данные и работает с памятью и диском. Развернёте свой первый локальный стенд.
  • Изучите основы RDD: базовые концепции, работу с источниками, actions. Научитесь работать с Dataframe API. Изучите вопросы производительности и оптимизации при использовании Dataframe, источники и типы данных, работу с валидными/невалидными данными, обработку ошибок, UDF, взаимодействие с Python и SQL.
  1. Основы алгоритмов Machine Learning
    Разберёте основные виды моделей машинного обучения, ключевые термины и определения. Изучите алгоритмы регрессии и алгоритмы кластеризации.
  2. Deployment
  • Изучите основные этапы подготовки модели к деплою, подходы к построению API и способы обработки ошибок и отладки приложений. Сможете устранять проблемы при деплое и освоите основные инструменты swagger.
  • Познакомитесь с ключевыми процессами bash: написанием скриптов, работой с переменными и текстовыми редакторами sed и awk.

Data Engineer Advanced

  1. Продвинутый уровень
    Научитесь пользоваться типовыми средствами мониторинга, настраивать алерты. Будете выбирать архитектуру для хранения данных и работать со сложными типами архитектуры хранилищ. Выстраивать инфраструктуру и пайплайны для обучения ML-моделей.

Бонусные курсы

  1. Карьера разработчика: трудоустройство и развитие
    Узнаете, как выбрать подходящую вакансию, подготовиться к собеседованию и вести переговоры с работодателем. Сможете быстрее получить должность, которая соответствует вашим ожиданиям и умениям.
  2. Система контроля версий Git
    Научитесь версионировать изменения в коде, создавать и управлять репозиториями, ветками, разрешать конфликты версий. Узнаете полезные правила работы с Git.
  3. Английский для IT-специалистов
    Получите языковые навыки, которые помогут пройти собеседование в иностранную компанию и комфортно общаться в смешанных командах.

Дипломный проект

  1. Дашборды на основе данных источника
    Вы объедините и обработаете данные из различных источников: истории транзакций от партнёров, текстовых логов, выгрузки справочников по API и других. На основе этих данных построите интерактивный отчёт.
Стоимость: 120 000 ₽ или рассрочка на 24 месяца — 5 000 ₽ / мес

Обучение на курсе поможет вам:

  • Перейти в профессию с высоким окладом на низкоконкурентном рынке
  • Освоить ключевые технологии и опередить запрос рынка
  • Прожить опыт 2-3 лет самостоятельного изучения инжиниринга данных.

Кому будет полезен этот курс:

  • Системным и сетевым администраторам
    Сможете масштабировать инфраструктуру, выбирать из множества разных специфических инструментов, внедрять в продакшн решения коллег
  • Backend и Fullstack-разработчикам
    Сможете вырасти в деньгах и получить интересные задачи. Станете незаменимым сотрудником, погрузитесь в ключевой продукт и его метрики
  • Новичкам, желающим войти в сферу Data Science
    Сможете влиться в новую сферу и приобрести базу, с которой можно постоянно развиваться — в любых компаниях и продуктах.

Чему вы научитесь:

  1. Объяснять архитектуру и структуру базы данных
    Проектировать схемы хранилищ и выбирать DWH под задачу и бюджет бизнеса среди популярных решений: Snowflake, BigQuery, Azure SQL DW, Redshift
  2. Создавать процессы обработки данных
    Настраивать и конфигурировать ETL / ELT-процессы в нескольких дата-инструментах
  3. Работать с основными инструментами обработки больших данных
    Lambda architecture, kappa architecture, а также hdfs, yarn, hive и другими обязательными частями инфраструктуры
  4. Обрабатывать события в режиме реального времени
    Построите свой конвейер обработки даннных, сборщик событий, RTDM-систему с выводом в массовые enterprise BI-решения
  5. Разовьёте навык data literacy
    Сможете понимать, пояснять и обогащать данные отчётов, дашбордов и других источников информации
  6. Строить работающий пайплайн в облачной среде
    И включать в него модели машинного обучения, нейронные сети, сервисы оркестрирования контейнеров и проверку версионности.

Программа курса:

  1. SQL и получение данных
  • Основы баз данных
  • Работа с базами данных
  • Основы SQL
  • Продвинутый SQL
  • Углубление в SQL
  • Работа с PostgreSQL
  • Работа с MongoDB.
  1. Data Warehouse
    Научим работать с классическим хранилищем данных.
  2. Business Intelligence решения и многомерная модель данных
  • BI как сердце аналитики
  • Многомерные модели
  • Real-time отчётность
  • Современные подходы.
  1. Python
  • Основы Python
  • Введение в анализ данных на Python
  • Статистика в Python
  • Предобработка данных
  • Feature Selection.
  1. Data Lake & Hadoop
    Познакомим с основным инструментом обработки больших данных.
  2. Продвинутые методы работы с данными
  • Apache Spark
  • Работа со Spark
  • Spark SQL
  • Продвинутый Spark
  • Airflow
  • Работа с Airflow
  • Продвинутый Airflow
  • Dbt как инструмент ETL.
  1. Работа с потоковыми данными
    Научим работать с потоковыми данными.
  2. Работа с данными в облаке
  • Google Cloud Platform — хранение данных
  • Spark в GCP
  • Managed ETL в GCP
  • Обработка real-time данных в GCP
  • Поиск инсайтов в данных при помощи ML
  • Другие облачные провайдеры.
  1. Введение в DS & ML
  • Введение в машинное обучение
  • Задача классификации
  • Задача кластеризации
  • Ансамблевые методы решения задачи классификации
  • Feature engineering
  • Нейронные сети.
  1. MLOps
  • Зачем нужен DevOps
  • Docker и микросервисная архитектура
  • K8S
  • Орекстраторы
  • CI/CD
  • Мониторинг
  • Инструменты DevOps для обучения ML-моделей
  • Deploy ML-моделей.
  1. Дипломный проект
    Разработка и документирование ETL-процессов заливки данных в хранилище.
Стоимость: 32 400 ₽ или рассрочка на 12 месяцев

Курс ориентирован на практику и основные инструменты, подходит для тех, кто имеет базовые знания языка Python. За два месяца вы освоите все важные этапы Data Engineering.

Программа курса:

  1. Введение, практический linux
    Кто такой Data Engineer и зачем ему Linux?
  2. Современные хранилища данных
    Разнообразие баз данных и их особенности
  3. Экосистема Hadoop
    Что такое Hadoop, что он умеет и как им пользоваться
  4. Источники данных и работа с ними
    Файлы как источники данных, JDBC — структурированные данные, SQL для выгрузки данных
  5. Apache Spark и обработка данных
    Зачем нужен Apache Spark и как с ним работать
  6. Hadoop как хранилище данных
    Особенности и нюансы hdfs
  7. Apache Airflow для оркестрации конвейеров
    Настройка data pipelines
  8. Обзор облачных хранилищ
    Особенности и нюансы работы с облачными хранилищами: Google, Amazon, Azure.

На курсе обучение не заканчивается:

  • Портфолио
    Готовый код и пайплайны для портфолио
  • Развитие карьеры и бизнеса
    Помощь с трудоустройством и стажировкой
    Тусовка специалистов и полезные знакомства.
  • Сертификат школы SkillFactory.

Что даст вам этот курс:

  • Понимание ключевых способов интеграции, обработки, хранения больших данных
  • Умение работать с компонентами экосистемы Hadoop, распределенными хранилищами и облачными решениями
  • Практические навыки разработки дата-сервисов, витрин и приложений
  • Знание принципов организации мониторинга, оркестрации, тестирования

Курс адресован разработчикам, администраторам СУБД и всем, кто стремится повысить профессиональный уровень, освоить новые инструменты и заниматься интересными задачами в сфере работы с данными.

После обучения Data Engineering вы станете востребованным специалистом, который:

  • разворачивает, налаживает и оптимизирует инструменты обработки данных
  • адаптирует датасеты для дальнейшей работы и аналитики
  • создает сервисы, которые используют результаты обработки больших объемов данных
  • отвечает за архитектуру данных в компании

Программа обучения:

Модуль 1. Data Architecture

  • Тема 1. Инженер Данных. Задачи, навыки, инструменты, потребность на рынке
  • Тема 2. Архитектура аналитических приложений: базовые компоненты и принципы
  • Тема 3. On premises / Cloud solutions
  • Тема 4. Автоматизация пайплайнов и оркестрация – 1
  • Тема 5. Автоматизация пайплайнов и оркестрация – 2

Модуль 2. Data Lake

  • Тема 6. Распределенные файловые системы. HDFS / S3
  • Тема SQL-доступ к Hadoop. Apache Hive / Presto
  • Тема Форматы хранения данных и их особенности
  • Тема 9. Разбор ДЗ по 1 кейсу
  • Тема 10. Очереди сообщений. Обзор Kafka.
  • Тема 11. Выгрузка данных из внешних систем
  • Тема 12. Apache Spark – 1
  • Тема 13. Apache Spark – 2

Модуль 3. DWH

  • Тема 14. Аналитические СУБД. MPP-базы данных
  • Тема 15. Моделирование DWH – 1. Основы работы с dbt
  • Тема 16. Моделирование DWH – 2. Data Vault 2.0
  • Тема 17. DevOps практики в Аналитических приложениях. CI + CD
  • Тема 18. Разбор ДЗ по 2 кейсу
  • Тема 19. Data Quality. Управление качеством данных
  • Тема 20. Развертывание BI-решения
  • Тема 21. Мониторинг / Метаданные

Модуль 4. NoSQL/NewSQL

  • Тема 22. NoSQL Хранилища. Wide-column и key-value
  • Тема NoSQL Хранилища. Document-oriented
  • Тема ELK
  • Тема 25. ClickHouse
  • Тема 26. Разбор ДЗ по 3 кейсу

Модуль 5. MLOps

  • Тема 27. Организация и Packaging кода
  • Тема 28. Docker и REST-архитектура
  • Тема 29. MLFlow + DVC
  • Тема 30. Деплоймент моделей
  • Тема 31. Разбор ДЗ по 4 кейсу
  • Тема 32. Разбор ДЗ по 5 кейсу

Модуль 6. Выпускной проект

  • Тема 33. Выбор темы и организация проектной работы
  • Тема 34. Консультация
  • Тема 35. Защита.

Выпускной проект: реализация задачи по интересующей теме с применением комплекса знаний, полученных в рамках курса.

После обучения вы

Заберете с собой:

  • основные и дополнительные материалы, и видеозаписи занятий;
  • образцы кода;
  • собственный проект, который можно будет показывать при трудоустройстве;
  • сертификат о прохождении обучения.

В результате обучения вы:

  • будете иметь представление об основных классах задач Инженера Данных, инструментах, предназначенных для их решения, а также их преимуществах и особенностях;
  • научитесь выстраивать пайплайны пакетной и потоковой обработки данных;
  • сможете проектировать хранилища данных и организовывать оптимальный доступ для потребителей;
Стоимость: нет информации

Вы научитесь собирать и обрабатывать данные, проектировать хранилища и работать с инфраструктурой. Повысьте квалификацию и уровень дохода вместе с GeekBrains.

После курса вы сможете работать по специальностям:

  • Data Engineer
  • Инженер дата-центра
  • DWH-аналитик
  • Инженер пайплайнов данных для машинного обучения (ML Engineer)
  • А также владеть DevOps компетенциями.

Кому подойдёт курс:

  • Всем, кому интересно работать с данными.
    Вы научитесь обрабатывать самые разные источники и форматы данных, освоите обработку больших массивов данных (BigData) на распределенных системах, максимизируйте пользу, извлекаемую из данных.
  • Начинающим аналитикам и разработчикам.
    У вас будет всё для ускоренного карьерного роста: комплексные знания и опыт работы с продвинутыми инструментами, методологиями и стандартами. Прокачайте свои навыки для выхода на новый уровень.
  • Практикующим IT-специалистам.
    Рассмотрим знакомые темы с новых углов, приумножим имеющиеся знания, подскажем, как перейти в востребованное направление и зарабатывать больше.

Программа курса:

Подготовительный блок
Мы рекомендуем пройти подготовительные курсы, чтобы закрыть возможные пробелы в знаниях.

  • Базовый курс

I четверть. Сбор и хранение данных
Вы погрузитесь в профессию дата-инженера: познакомитесь с понятием базы данных, научитесь использовать SQL, создавать запросы, программировать на Python. Также познакомитесь с открытыми данными, RESTful и SOAP-сервисами, форматами XML и JSON.

  • Основы реляционных баз данных. MySQL
  • Основы Python
  • Методы сбора и обработки данных из интернета
  • Проект: Разработка собственного парсера

II четверть. Построение хранилищ данных для систем аналитики
Познакомитесь с реляционными и нереляционными базами данных, узнаете, как строить хранилища данных и выбирать архитектуры под конкретную задачу.

  • Построение хранилища данных и основы ETL-процессов
  • Технологии OLAP + BI
  • Введение в NoSQL баз данных. Tarantool
  • Проект: Хранилище для BI-системы

III четверть. Распределенные базы данных
В данной четверти вы познакомитесь с инструментами обработки больших массивов данных, в первую очередь с инструментами экосистемы Hadoop: HDFS, Yarn, Hive, Hue, Flume, Cassandra и другими. Вы освоите возможности фреймворка Apache Spark для распределённой обработки неструктурированных и слабоструктурированных данных. В конце четверти познакомитесь с популярным инструментом Apache Airflow для планирования и мониторинга пакетных процессов работы с большими данными.

  • Big Data. Экосистема Hadoop
  • Big Data. Фреймворк Apache Spark
  • Настройка потоков данных. Apache Airflow
  • Проект: Полноценный ETL-пайплайн с использованием инструментов работы с большими данными.

IV четверть. Real-time обработка данных и инфраструктура
В последней четверти вы освоите потоковую обработку данных с использованием инструментов Kafka и Spark Streaming. Также освоите практики DevOps, необходимые для работы дата-инженером.

  • Потоковая обработка данных
  • Микросервисная архитектура и контейнеризация
  • Проект: Потоковый сервис для оценки кредитоспособности клиентов банка с использованием машинного обучения

Курсы вне четверти

Предметы с индивидуальным выбором даты старта
Курсы вне четверти являются частью основной программы обучения и обязательны к прохождению. Вы можете формировать часть расписания самостоятельно и регулировать интенсивность обучения. На прохождение этих предметов у вас есть 2.5 года с момента покупки обучения в GeekUniversity. Проходите параллельно с четвертями или после года обучения.

  • Подготовка данных для ML Applications
  • Рабочая станция.

Вы получаете электронный сертификат и диплом о профессиональной переподготовке, их можно приложить к портфолио и показать работодателю.

Стоимость: бесплатно

Этот курс для тех, у кого есть базовые знания баз данных, стремление изучить теорию и отработать ее на практике, а также желание перейти от слов к действию. Полученные скиллы станут веским аргументом для твоего дебюта в качестве Junior Data Engineer в NIX.

  • научиться всему, что знает и умеет Junior Data Engineer.
  • отпраздновать удачное окончание курсов и утвердиться в гордом титуле Junior Data Engineer, став членом большой команды NIX.

Что входит в программу:

  • 6 лаб
    Почти каждую неделю вам нужно будет решать лабораторную работу и суперачивку. Лабы объединены в 2 проекта: lambda-архитектура и kappa-архитектура. Также будет реальный проект с призовым фондом для продвинутых участников.
  • 10+ инструментов
    С частью инструментов вы сможете поработать глубоко: Kafka, HDFS, ClickHouse, Spark, Airflow. С частью сможете просто познакомиться на практике: ELK, Flink, Docker, Grafana, Kubernetes и др.
  • 21 занятие
    С трансляциями в прямом эфире и видеозаписями в личном кабинете. Занятия устроены так, что преподаватель рассказывает об устройстве того или иного инструмента, демонстрирует разные кейсы работы, показывая подводные камни и best practices.

Для кого эта программа?

  • Дата инженеры
    У вас есть опыт работы с одними инструментами и хочется получить опыт работы с другими? Вы сможете это сделать, решая наши лабы и упражнения, задавая вопросы нашим преподавателям-практикам.
  • Администраторы БД
    Вы умеете работать с классическими реляционными БД и хочется получить опыт работы с другими инструментами хранения данных? На программе вы сможете поработать с HDFS, ClickHouse, Kafka, ElasticSearch.
  • Менеджеры
    Вы занимаетесь развитием продукта или подразделения? На программе вы получите понимание, какие инструменты можно использовать для каких задач, какие у них есть достоинства и недостатки.

Чему вы научитесь:

В нашей программе есть три составляющих

  1. Установка
    Научитесь самостоятельно устанавливать все инструменты, используемые на программе, пользуясь нашими подробными мануалами.
  2. Настройка
    Научитесь подключать инструменты друг к другу, формируя пайплайны, получая baseline-решение.
  3. Тюнинг
    Научитесь улучшать быстродействие и отказоустойчивость как отдельных инструментов, так и пайплайнов целиком.

Проект 1. Lambda-архитектура

  1. Деплой кластера в облаке и подключение Kafka
    Перед стартом проекта вам нужно будет реализовать подготовительный этап — развертывание собственного кластера в облаке. После чего организовать сбор данных о посещении пользователей различных страниц сайта и их покупках.
  2. Batch-layer
    В этой лабе вам нужно будет организовать batch-layer в lambda-архитектуре. Вы получите данные из Kafka, положите их на HDFS. Используя Airflow, будете планово перекладывать предобработанные данные в ClickHouse.
  3. Speed-layer
    Используя Spark Streaming, вам нужно будет построить speed-layer, который будет обрабатывать данные в режиме реального времени, восполняя недостающую информацию в batch-layer.
  4. Service-layer
    Первый проект завершает тем, что вы подключаете один из BI-инструментов к обоим слоям — batch и speed — для выполнения аналитических запросов в отношении среднего чека и других метрик.

Проект 2. Kappa-архитектура

  1. Speed-layer
    В рамках этого проекта вам нужно будет построить модель машинного обучения, используя Spark ML, после чего использовать ее для прогнозирования пола и возрастной категории пользователей, заходящих на сайт.
  2. Service-layer
    Второй проект завершается тем, что вы подключаете BI-инструмент, который по запросу сможет выдавать нужные сегменты аудитории за всю историю существования без использования batch-layer.

Для кого:

  • Для аналитиков и дата-сайентистов
    Понимание инженерии данных даст представление о том, что происходит за пределами очистки и анализа датасетов, и позволит выйти на качественно новый уровень в аналитике.
  • Для разработчиков
    Программа поможет понять проблематику построения хранилища данных и покажет, как применить свой опыт разработки для решения задач в области инженерии данных.

Вы освоите:

  1. Проектирование DWH
    В этом модуле мы познакомимся с верхнеуровневой логической архитектурой DWH, разберём её основные компоненты, которые будут освещены далее в курсе, а также рассмотрим в теории и разберём на практике разные подходы к проектированию детального слоя.
  2. Реляционные и MPP СУБД
    В этом модуле познакомимся с реляционными и MPP базами данных, рассмотрим, как они работают изнутри, и узнаем, что и в каком случае лучше выбрать. Изучим архитектуру разнообразных решений на рынке. Попрактикуемся готовить PostgreSQL и MPP на примере GreenPlum.
  3. Big Data
    В этом модуле познакомимся с механизмами распределённого хранения и обработки данных на базе Hadoop стека. Разберём основные паттерны реализации распределённой обработки. Рассмотрим вопросы отказоустойчивости и восстановления после сбоев. Коснёмся потоковой обработки данных и уделим внимание методам и средствам мониторинга и профилирования spark заданий.
  4. ETL
    В этом модуле познакомимся с Apache Airflow, научимся его настраивать и строить с его помощью пайплайны.
  5. Хранилище в облаках
    В этом модуле познакомимся с облаками и инструментами для построения DWH и Data Lake, рассмотрим основы Kubernetes и получим практические навыки применения Kubernetes для работы с данными.
  6. Визуализация
    В этом модуле познакомимся с Tableau — одним из самых мощных BI-инструментов. Рассмотрим основные принципы работы с данными с точки зрения их визуализации.
  7. Big ML
    В этом блоке познакомимся с модулем Spark ML. Изучим подходы по обучению и применению моделей машинного обучения на больших данных.
  8. Управление моделями
    В этом модуле рассмотрим применяемые инструменты для помощи в построении ML пайпланов, версионирования датасетов и организации учета и трекинга ML моделей.
  9. Управление данными.
    В этом блоке познакомимся с подходами, применяемыми компаниями для управления данными. Разберем подходы для управления данными, происхождения данных и контроля качества данных.

Чему вы научитесь:

  • Работать SQL
    Научитесь писать запросы, работать с данными в базе без переноса в таблицы, загружать данные и сохранять историю, работать с разными форматами файлов
  • Использовать Python и библиотеки анализа данных
    Автоматизировать работу с большими массивами, получать данные из внешних источников, обосновывать выводы, сделанные на основании данных
  • Оптимизировать системы работы с данными
    Научитесь создавать необходимые условия для хранения и организации полезных данных всей компании. Настраивать и конфигурировать ETL / ELT-процессы в нескольких дата-инструментах
  • Объяснять архитектуру и структуру базы данных
    Проектировать схемы хранилищ и выбирать DWH под задачу и бюджет бизнеса среди популярных решений: Snowflake, BigQuery, Azure SQL DW, Redshift.

Программа курса (60 лекций и воркшопов)

Блок 1: «Получение и подготовка данных: SQL»

  • Основы SQL
  • Обновление, добавление и удаление данных. Работа с таблицами
  • Представления и хранимые процедуры. Особенности обработки транзакций
  • Расширенные возможности SQL и основные ограничения
  • Фильтрация данных и вычисляемые поля — практика (SELECT, SUM, AVG, GROUP BY, ..)
  • Группировка данных, подзапросы и объединение таблиц — практика (INNER, LEFT, RIGHT, DISTINCT)
  • Обновление, добавление и удаление данных. Работа с таблицами (INSERT, UPDATE, DELETE, MERGE, FOREIGN KEY)
  • Работа с популярными программами (MySQL, SQL Server, Redash, Tableau)

Блок 2: «Python, мат.модели и обработка данных»

  • Python: настройка окружения, базовые структуры данных и основные операторы
  • Python: работа с файлами и форматированный вывод
  • Python: пространства имен и области видимости, классы и объекты
  • Python: инструменты функционального программирования
  • Python: стандартные и сторонние библиотеки Python для анализа данных
  • Основы линейной алгебры и теории множеств
  • Методы математической оптимизации
  • Основы описательной статистики
  • Статистический анализ данных

Блок 3: «Data Warehouse»

  • Проектирование хранилища данных
  • Организация работы с традиционными хранилищами данных
  • ETL / ELT-процессы: знакомство с Pentaho
  • ETL-pro
  • Заливка данных и создание OLAP-кубов
  • Data Governance
  • Изучение Snowflake, BigQuery: плюсы и минусы
  • Практика с Azure SQL DW
  • Практика работы с Redshift и выгрузки данных
  • DWH в облаке

Блок 4: «Business Intelligence-решения и аналитика больших данных»

  • Установка и настройка Power BI
  • Подключение к данным: загрузка стационарных файлов, загрузка файлов из папок
  • Очистка и преобразование данных: типы данных, фильтрация данных
  • Знакомство с инфраструктурой Tableau. Загрузка данных. Первый дашборд
  • Tableau Professional.
  • Подключение к базам данных SQL Основы работы с Tableau Server
  • Знакомство с Pentaho BI
  • Многомерные модели. Pentaho Analysis Services
  • Машинные методы для обработки данных
  • Культура сбора и источники данных
  • Предобработка и визуализация данных в pandas
  • Улучшение качества работы с данными
  • Основы архитектуры хранения и обработки больших данных, виды обработки и масштабирования
  • Основы работы в Hadoop и MapReduce
  • Работа с облачными платформами: AWS, EMR, Azure
  • Продвинутые подходы в MapReduce
  • Организация команды для работы с данными. CRISP-DM

Блок 5: Дипломная работа и помощь с трудоустройством

  • Работа над дипломным проектом для портфолио
  • Подготовка резюме
  • Подготовка к собеседованию
  • Финальная защита и консультации.

Выпускники получают сертификат об успешном прохождении курса — что, вместе с дипломным проектом, будет хорошим аргументом при трудоустройстве.

Стоимость: нет информации

Пройдите курс DE, и вы сможете:

  • Хранить и обрабатывать огромные массивы данных.
  • Освоить инструменты Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS и
  • Строить собственные Data Platform, которые способны масштабироваться.
  • Овладеть профессией, актуальной через 5-10-15 лет.
  • Повысить свою квалификацию и уровень дохода.

Кому будет полезен курс:

  • Data Scientist / Data Analyst
    Вы углубите знания в работе с данными, научитесь строить пайплайны, хранилища, обрабатывать и эффективнее анализировать данные.
    Со знаниями курса вы можете претендовать на позицию архитектора.
  • Software/SQL / ETL Developer
    Вы усилите свои компетенции по работе с данными, научитесь самостоятельно строить системы хранения и обработки данных.
    На курсе вы получите знания, необходимые для позиции инженера данных.
  • Data Engineer (beginner)
    Вы углубите знания в работе с данными, научитесь строить пайплайны, хранилища, обрабатывать и эффективнее анализировать данные.
    Со знаниями курса вы можете претендовать на позицию архитектора.

Программа курса

  1. Введение в Data Engineering
    Узнайте всё, что вы хотели о профессии Data Engineer: цели, направления, задачи, обязанности и функция в команде. Сравните Data Engineer vs Big Data Engineer. Ознакомьтесь с технологиями, с которыми вы будете работать во время курса. Поймите, какие задачи решает конкретная Big Data технология.
  2. Python для Data Engineering
    Научитесь работать с разными структурами данных: string, list, tuple, set, dictionary. Начните загружать данные из внешних источников с помощью Python. Узнайте специфику работы с модулями Python: import и relative import модулей.
  3. SQL для Data Engineering
    Узнайте, для чего используется SQL в Big Data. Научитесь объединять наборы данных при помощи SQL: JOIN, UNION, EXCEPT. Начните использовать SQL для аналитических запросов: аналитические функции, группирование данных, оконные функции. Поймите, как писать быстро-выполняющийся SQL.
  4. Аналитические базы данных
    Выявите различия между OLTP и OLAP системами. Поймите техническую реализацию системы управления баз данных, предназначенных для аналитики. Научитесь описывать структуру базы данных при помощи ER-модели для ее будущего конструирования (Crow’s foot notation).
  5. Проектирование хранилищ данных
    Узнайте, какое назначение хранилищ данных и какие существуют подходы к их проектированию. Научитесь проектировать (строить) хранилища данных. Освойте навык “представление данных в виде витрин”. Разберите примеры существующих хранилищ данных.
  6. Передача данных между системами. Часть 1
    Спроектируйте ETL решение. Поймите, как передавать данные между системами. Научитесь извлекать данные из внешних источников, трансформировать и очищать.
  7. Передача данных между системами. Часть 2
    Научитесь создавать, запускать и мониторить ETL при помощи Apache Airflow. Начните описывать ETL процессы, используя Directed Acyclic Graph. Напишите свой оператор Airflow для доступа к API. Подключитесь к внешним источникам данных с помощью Apache Airflow.
  8. Распределенные вычисления. Лекция
    Разберитесь с понятием распределенных систем и вычислений. Узнайте, какие задачи они решают и какие готовые решения уже существуют. Выявите отличия распределенных систем от обычных, разберите их преимущества и недостатки. Поймите, что означают свойства распределенных систем и ограничения распределенных систем в САР-теореме для вашей работы. Узнайте, на что стоит обратить внимание при построении распределенных систем и чем можно пожертвовать при решении конкретной задачи.
  9. Экосистема Hadoop для распределенной работы с файлами
    Научитесь пользоваться экосистемой Hadoop. Узнайте, в чем предназначение каждой технологии в рамках экосистемы Hadoop. Изучите альтернативы Hadoop. Начните использовать Hadoop Distributed File System.
  10. Распределенная файловая система (HDFS)
    Научитесь работать с распределенной файловой системой Hadoop. Ознакомьтесь со спектром решаемых задач. Изучите внутреннюю архитектуру HDFS и особенности её реализации. Научитесь управлять файлами, загружать, выгружать данные, администрировать кластера при помощи HDFS.
  11. BigData архитектуры
    Освойте технологию MapReduce для параллельных вычислений над большими наборами данных в компьютерных кластерах. Изучите задачи, которые решаются с помощью MapReduce. Научитесь анализировать большие объемы данных с использованием MapReduce
  12. Распределенные вычисления в оперативной памяти (Apache Spark)
    Начните обзор технологии Apache Spark, выявите её отличие от MapReduce. Поймите, почему Apache Spark флагманская технология в мире BigData. Узнайте, какие задачи решает Apache Spark. Используйте технологию Apache Spark для организации больших данных.
  13. Работа со структурированными данными при помощи SparkSQL. Часть 1
    Начните знакомство со SparkSQL — одним из синтаксисов Apache Spark. Научитесь загружать данные в Spark. Изучите работу Spark со внешними источниками данных. Совершите трансформации над структурированными данными при помощи SparkSQL.
  14. Работа со структурированными данными при помощи SparkSQL. Часть 2
    Начните выгрузку данных из Spark. Научитесь проводить аналитику на структурированных данных в Spark.
  15. Оптимизация выполнения задач в Apache Spark
    Поймите, как написать эффективный код и ускорить обработку больших данных в Apache Spark. Научитесь выявлять основные проблемы производительности Spark, устраните их. Организуйте данные в кластере Apache Spark.
  16. Потоки данных в Apache Spark
    Поймите, чем отличается обработка потоковых данных от статичных. Научитесь обрабатывать потоки данных с помощью Spark Streaming. Разберите пример программы по анализу потоковых данных.
  17. Подведение итогов
    Объедините все полученные знания. Создайте data platform. Сделайте обзор полного цикла подготовки и реализации проекта. Начните подготовку к курсовому проекту.
  18. Защита курсового проекта
    Получите тему курсового проекта. Ознакомьтесь с форматом работы. Выполните ряд обязательных требований для реализации проекта. Успешно защитите его.
Стоимость: нет информации

Data Engineering – это работа с данными и Big Data: программирование сбора, хранения, обработки, поиска и визуализации.

Тренинг поможет Вам:

  • Изучить современные технологии обработки и анализа данных;
  • Научиться применять Python (включая пакеты Pandas, NumPy);
  • Освоить SQL как универсальный «язык доступа к данным»;
  • Приобрести опыт работы с Data Warehouses;
  • Изучить основы Linux для использования облачных сервисов;
  • Познакомиться с классической теорией тестирования ПО.

Для кого:

  • Для студентов 4-6 курсов технических специальностей, выпускников и молодых специалистов;
  • Для тех, кто хочет обучаться и развиваться в направлении Data Quality.
Стоимость: бесплатно

Список курсов:

  1. Getting start with Data Engineering and Analytics (DE — 101)
    ~10 недель, с одним вебинаром в неделю и с домашкой, от простого к сложному, что-то вроде моей карьеры за 10 недель.
  2. Getting Started with Machine Learning и Data Science (ML-101)
    Требуется серьезная мотивация и целеустремленность, чтобы закончить курс, и если вы справитесь со всеми модулями курса ML-101, то вы легко справитесь с базовым уровнем задач на позициях Data Science Intern, Junior Data Scientist, Applied Scientist
  3. Курс по поиску работы для аналитических специальностей в России и за рубежом (JH — 101)
  4. Getting started with SQL for beginners
    Практический видеокурс по работе с базами данных с использованием языка структурированных запросов SQL (Structured Query Language).
    Подойдет тем, кто слышал об SQL, но боялся попробовать
  5. Women in Data Community
    Наша цель — создать наиболее комфортную среду для девушек, которые интересуются карьерой в data. В дополнение к основным курсам, коммьюнити — платформа, где можно пообщаться с девушками из data, узнать про карьеры в data и задать любые интересующие вопросы.

Для кого подойдут эти курсы:

  • Аналитики
    Изучите инструменты и станете более востребованными специалистами
  • Маркетологи
    Сможете структуризировать данные, увеличить эффективность рекламных каналов
  • Руководители
    Сможете анализировать продажи в разных разрезах и в динамике
  • Предприниматели
    Построите систему аналитики и найдете точки роста для своей компании
  • Инженеры
    Сможете сменить специализацию и зарабатывать больше, ваши технические знания упростят обучение
  • Фрилансеры
    Сможете предлагать дополнительные услуги вашим клиентам или работать на западные компании
  • Финансисты
    Загружать, анализировать данные, строить отчёты.

Преимущества выбора курсов в РоманСеменцов.ру

1. Агрегатор онлайн-курсов


2. Рейтинги онлайн-школ

  • ТОП школ по любым направлениям
  • Дата начала: 2023-01-01
  • Дата окончания: 2023-12-31

3. Актуальное обучение

  • Выбирайте лучшие курсы по отзывам реальных учеников
  • Дата начала: 2023-01-01
  • Дата окончания: 2023-12-31
Онлайн-курсы доступ в любом городе России и СНГ, включая: Уфа, Ижевск, Кемерово, Петрозаводск, Серпухов, Барнаул, Чита, Норильск, Череповец, Назрань, Комсомольск-на-Амуре, Армавир, Абакан, Владивосток, Химки, Щёлково, Казань, Пермь, Нижний Новгород, Красногорск, Орехово-Зуево, Нижневартовск, Грозный, Мытищи, Пятигорск, Саратов, Сургут, Каменск-Уральский, Подольск, Иркутск, Брянск, Кострома, Прокопьевск, Братск, Энгельс, Тула, Копейск, Омск, Хабаровск, Улан-Удэ, Батайск, Керчь, Златоуст, Бийск, Великий Новгород, Владикавказ, Архангельск, Ковров, Рыбинск, Самара, Орёл, Воронеж, Ставрополь, Курган, Балаково, Рубцовск, Нижнекамск, Новочебоксарск, Москва, Волгодонск, Березники, Новороссийск, Дербент, Черкесск, Симферополь, Казахстан, Магнитогорск, Калининград, Вологда, Кисловодск, Владимир, Первоуральск, Королёв, Ангарск, Невинномысск, Балашиха, Курск, Новый Уренгой, Набережные Челны, Ростов-на-Дону, Дзержинск, Обнинск, Краснодар, Калуга, Томск, Екатеринбург, Новочеркасск, Миасс, Одинцово, Кызыл, Майкоп, Хасавюрт, Уссурийск, Ярославль, Альметьевск, Тюмень, Иваново, Южно-Сахалинск, Домодедово, Таганрог, Саранск, Пенза, Беларусь, Новосибирск, Стерлитамак, Нефтекамск, Салават, Севастополь, Челябинск, Находка, Коломна, Якутск, Йошкар-Ола, Санкт-Петербург, Старый Оскол, Долгопрудный, Каспийск, Шахты, Петропавловск-Камчатский, Киров, Белгород, Раменское, Ульяновск, Псков, Липецк, Тамбов, Тверь, Рязань, Красноярск, Северодвинск, Астрахань, Волжский, Волгоград, Тольятти, Оренбург, Нижний Тагил, Электросталь, Нефтеюганск, Махачкала, Люберцы, Чебоксары, Сызрань, Сыктывкар, Минск, Благовещенск, Новомосковск, Сочи, Мурманск, Орск, Смоленск, Новокузнецк

Автор статьи. Ответственный за актуальный контент, текст и редактуру сайта. Эксперт по выбору профессии, курсов и профессий с 2016 года. Делюсь личным практическим опытом.

Оцените автора
Блог Романа Семенцова
Добавить комментарий