- Кто такой аналитик Big Data?
- Что делают аналитики Big Data и чем занимаются?
- Что должен знать и уметь аналитик Big Data?
- Востребованность и зарплаты аналитиков Big Data
- Как стать аналитиком Big Data и где учиться?
- 15+ лучших курсов для обучения аналитика Big Data: подробный обзор
- 1 место. Курс «Факультет аналитики Big Data» — GeekBrains
- 2 место. Курс «Аналитик Big Data и старт в Data Science» — ProductStar
- Курс «BIG DATA для менеджеров» — ProductLIVE
- Курс «BIG DATA с нуля» — Нетология
- Курс «Big-Data для менеджеров» — SkillFactory
- Краткая программа обучения
- Ваши компетенции после курса
- Курс «Лекции по Big Data» — Sergey Petrovich
- Курс «Анализ Big Data» — BigData Team
- Курс «Аналитик Big Data» — «Специалист» при МГТУ им.Н.Э.Баумана
- Курс «Big Data for Data Science» — Stepik Academy
- Курс «Бизнес-аналитика и системы больших данных» — НИУ ВШЭ
- Курс «Большие данные» — Школа больших данных
- РУКОВОДИТЕЛЬ
- DATA SCIENTIST
- АДМИНИСТРАТОР КЛАСТЕРА
- АНАЛИТИК ДАННЫХ
- ИНЖЕНЕР DATA FLOW
- РАЗРАБОТЧИК И DEVOPS-ИНЖЕНЕР
Кто такой аналитик Big Data?
Аналитик больших данных (Big Data Analyst) — это специалист, который собирает данные из многочисленных источников и хранилищ данных компании, анализируют и интерпретируют их, чтобы извлечь такую информацию, которая может быть полезна для бизнеса. Аналитики больших данных также привлекаются компаниями для выполнения задач конкурентного анализа рынка с целью выявления ключевых тенденций в отрасли.
Что делают аналитики Big Data и чем занимаются?
Обязанности на примере одной из вакансий:
- решение аналитических задач;
- выявление и анализ инцидентов;
- участие в разработке продуктовых метрик и методов исследований;
- подготовка отчетов, дашбордов, визуализация результатов исследований;
- проведение и анализ А/Б-тестов.
- разработка и развитие предиктивных алгоритмов;
- автоматизация маркетинговой аналитики на основании собственных моделей;
- создание дашбордов для конечных пользователей;
- проверка и исследование гипотез.
Что должен знать и уметь аналитик Big Data?
Требования к аналитикам Big Data:
- Знание основ математической статистики
- Работа с Excel и Google Таблицами
- Основы программирования на Python
- Работа с Power BI
- Создание аналитических отчётов
- Знание Google Analytics и Яндекс.Метрики
- Работа с базами данных на SQL
- Создание дашбордов
- Подготовка презентаций в Power Point
Востребованность и зарплаты аналитиков Big Data
На сайте поиска работы в данный момент открыто 979 вакансий, с каждым месяцем спрос на аналитиков Big Data растет.
Количество вакансий с указанной зарплатой аналитика Big Data по всей России:
- от 95 000 руб. – 158
- от 175 000 руб. – 89
- от 255 000 руб. – 55
- от 335 000 руб. – 15
- от 415 000 руб. – 7
Вакансий с указанным уровнем дохода по Москве:
- от 120 000 руб. – 68
- от 195 000 руб. – 46
- от 270 000 руб. – 32
- от 345 000 руб. – 13
- от 420 000 руб. – 5
Вакансий с указанным уровнем дохода по Санкт-Петербургу:
- от 140 000 руб. – 15
- от 210 000 руб. – 9
- от 280 000 руб. – 6
- от 425 000 руб. – 2
Как стать аналитиком Big Data и где учиться?
Варианты обучения для аналитика Big Data с нуля:
- Самостоятельное обучение – всевозможные видео на YouTube, книги, форумы, самоучители и т.д. Плюсы – дешево или очень недорого. Минусы – нет системности, самостоятельное обучение может оказаться неэффективным, полученные навыки могут оказаться невостребованными у работодателя;
- Онлайн-обучение. Пройти курс можно на одной из образовательных платформ. Такие курсы рассчитаны на людей без особой подготовки, поэтому подойдут большинству людей. Обычно упор в онлайн-обучении делается на практику – это позволяет быстро пополнить портфолио и устроиться на работу сразу после обучения.
Ниже сделали обзор 15+ лучших онлайн-курсов.
15+ лучших курсов для обучения аналитика Big Data: подробный обзор
Вы научитесь собирать и анализировать данные, извлекать полезную информацию и находить закономерности. После обучения сможете проверять гипотезы и помогать бизнесу принимать взвешенные решения.
- 18 месяцев
- 9 кейсов в вашем портфолио
- Гарантия трудоустройства
- Онлайн, 1–2 раза в неделю
Аналитик Big Data извлекает ценные данные из большого массива информации: отзывов, прогнозов, результатов исследований. Он помогает бизнесу принимать взвешенные решения: строить гипотезы, запускать продукты, улучшать процессы, планировать развитие.
Кому подойдет курс
Новичкам
Даже если вы никогда не работали в IT, вы получите востребованную и высокооплачиваемую специальность.
Начинающим аналитикам
У вас будет всё для ускоренного карьерного роста: комплексные знания и опыт работы с продвинутыми инструментами, методологиями и стандартами.
Практикующим IT-специалистам
Подскажем, как перейти в востребованное направление и зарабатывать больше.
Программа обучения
Подготовительный блок
Курсы
- Видеокурс: как учиться эффективно
- Основы языка Python
I четверть
Фундамент анализа данных
Студенты научатся главному инструменту аналитика — языку SQL. Также изучат основы языка Python и базовые библиотеки Python для анализа данных (NumPy, Pandas, Matplotlib, Scikit-learn).
Проект
Закрытое соревнование на Kaggle по предсказанию цены на недвижимость — решение задачи регрессии.
Курсы
- Встреча студентов с деканом факультета
- Основы языка Python
- Рабочая станция
- Основы реляционных баз данных. MySQL
- Библиотеки Python для Data Science: NumPy, Matplotlib, Scikit-learn
II четверть
Сбор, обработка и хранение данных
Студенты научатся собирать данные из различных источников. Также проработают процессы предобработки неструктурированных данных и их хранения в различных базах данных для дальнейшего анализа. На заключительном этапе познакомятся с популярным инструментом по работе с большими данными — Hadoop.
Проекты
— Несколько пауков для сбора данных с сайтов разной сложности: от открытого API до динамических страниц.
— Хранение и обработка полученных данных.
Курсы
Методы сбора и обработки данных из сети Интернет
Базы данных для аналитиков
Изучите работу долговременных хранилищ, начнёте работать с MySQL и другими базами данных: MongoDB, Redis, Elasticsearch и ClickHouse.
4 недели — 8 уроков
Big Data. Введение в экосистему Hadoop
Поработаете с парадигмой MapReduce и файловой системой HDFS, начнёте управлять ресурсами кластеров и планированием заданий в YARN, внедрите потоковую обработку данных. Изучите NoSQL, принципы ETL и архитектуры Data Lake и Lambda Architecture.
4 недели — 8 уроков
III четверть
Алгоритмы обработки и анализа данных. Совместно с компанией X5 Retail Group
Студенты начнут изучение теории вероятностей и математической статистики для понимания работы алгоритмов анализа данных. Также узнают базовые алгоритмы для решения основных задач анализа данных, научатся реализовать их с помощью Python и смогут применять их на практике в дальнейшем.
Проекты
— Разведочный анализ данных (EDA) на основе выбранного датасета: визуализация, корреляционный анализ, дисперсионный анализ, факторный анализ.
— Предиктивная аналитика выбранного датасета.
— Участие в одном или двух соревнованиях на Kaggle: предсказать средний балл на экзамене по математике, который получают ученики репетиторов; предсказать, подойдет ли репетитор для подготовки к экзамену по математике.
— Проект от X5 Retail Group: А/Б-тестирование на данных офлайн-ритейла.
Курсы
- Теория вероятностей и математическая статистика
- Алгоритмы анализа данных
IV четверть
Системы машинного обучения. Рекомендательные системы
Студенты погрузятся в прикладное машинное обучение: решат несколько бизнес-кейсов с применением ML, а также подробно изучат популярный фреймворк для работы с BigData — Apache Spark. Курсовой проект будет включать разработку рекомендательной системы.
Проекты
— Проект разработки модели с помощью Flask от сырых данных и типичных для отрасли задач до внедрения.
— Рекомендательная система на основе коллаборативной фильтрации.
Курсы
Машинное обучение в бизнесе
Вы познакомитесь с задачами, в которых машинное обучение помогает автоматизировать бизнес-процессы и улучшать финансовые показатели. Будут задачи по ретаргетингу, look-alike аудитории, uplift-моделированию. Также будут задачи по формулированию гипотез, презентации результатов, интеграции и АБ-тестированию ML-моделей.
5 недель — 9 уроков
Фреймворк Apache Spark
Рекомендательные системы
V четверть
Аналитика Big Data для бизнеса
Студенты научатся решать задачи ML с отзывами клиентов, геоданными и соцсетями. Также освоят несколько задач бизнес-аналитика в современных BI-системах: построение витрин данных, прогнозирование, управление знаниями и отчетность.Также студенты познакомятся с real-time системой обработки и анализа больших данных на основе Kafka и Apache Streaming.
Курсы
- Анализ данных в Power BI
- Потоковая обработка данных
- Финальный проект
Курсы со свободной датой старта
- Подготовка к собеседованию аналитика Big Data
- Введение в высшую математику
- Алгоритмы и структуры данных на Python. Интерактивный курс
- Видеокурс от Delivery Club
- Язык R для анализа данных
- Видокурс от Reg.ru.
Системы сбора логов - Видеокурс от X5 RETAIL GROUP.
A/B тестирование от основ до продвинутых подходов
Ключевые навыки
— Владею методами машинного обучения
— Использую в работе методы прикладной статистики и теории вероятностей
— Умею обрабатывать большие данные с помощью разных технологий (Hadoop, Hive, Spark, Hue, HBase, Kafka, Spark Streaming)
— Владею SQL и NoSQL СУБД
— Работаю с BI-системами (Power BI), формирую отчёты анализа данных
— Программирую на Python и работаю с библиотеками для анализа данных (NumPy, Matplotlib, scikit-learn)
Освойте ключевые технологии, научитесь работать с большими данными, расширьте знания в аналитике и перейдите на новый уровень в профессии.
Инструменты: от SQL и Python до Hadoop, ETL и DWH
- Длительность — 12 месяцев
- Онлайн — в удобное время
- Обучение — на практике
- Доступ к курсу — навсегда
Чему вы научитесь
Работать SQL
Научитесь писать запросы, работать с данными в базе без переноса в таблицы, загружать данные и сохранять историю, работать с разными форматами файлов
Использовать Python и библиотеки анализа данных
Автоматизировать работу с большими массивами, получать данные из внешних источников, обосновывать выводы, сделанные на основании данных
Строить системы анализа больших данных
Освоите Hadoop и MapReduce. Научитесь проверять гипотезы, изучите машинные методы для обработки данных, сможете выявлять скрытые аномалии в данных и строить прогнозные модели
Использовать сложную математику для анализа Big Data
Освоите необходимый математический аппарат для продуктивной работы с моделями данных, машинным обучением и нейронными сетями
Программа курса (120 лекций и воркшопов)
Блок 1: «SQL для анализа данных»
- Введение в блок SQL
- Извлечение и фильтрация данных
- Преобразование и сортировка данных
- Группировка данных
- Введение в базы данных
- Объединение таблиц
- Вложенные запросы
- Обновление, добавление и удаление данных
- Создание, изменение и удаление таблиц
- Advanced
- Обзор основных программ
Блок 2: «Python и обработка данных»
- Введение в Python
- Типы данных, функции, классы, ошибки
- Строки, условия, циклы
- Списки и словари в Python
- Пакеты, файлы, Pandas — начало
- Pandas: продолжение
- Визуализация данных
- Базы данных и статистика
- Многопоточность
- Веб-сервер flask и контроль версий GIt
- Итоговый проект
Блок 3: «Построение Machine Learning моделей»
- Знакомство с машинным обучением
- Линейная регрессия
- Бинарная классификация
- Построение надежных стратегий валидации — важность локальной валидации
- Решающие деревья
- Бутстрап, Бэггинг и случайный лес
- Feature Engineering, Feature Selection
- Градиентный бустинг
- Воркшоп: предсказание оттока клиентов и прогноз продаж
- A/B тестирование
- Обучение без учителя
- Воркшоп: скоринг кредитного портфеля
Блок 4: «Нейронные сети и NLP»
- Введение в нейронные сети
- Обучение нейросетей
- Глубокое обучение на практике
- Дополнительные возможности Tensorflow + Keras
- Свёрточные нейронные сети
- Введение в NLP, понятие ембеддинга
- Рекурентные нейронные сети
- Нейросети с вниманием, трансформеры
- Metric learning, обучение без учителя
- Обучение с подкреплением в нейросетях
Блок 5: «Рекомендательные системы»
- Введение
- Метрики и бейзлайны
- Матричное разложение
- Рекомендации через поиск ближайших соседей
- Гибридные рекомендательные системы
Блок 6: «Аналитика больших данных»
- Машинные методы для обработки данных
- Культура сбора и источники данных
- Предобработка и визуализация данных в pandas
- Построение прогнозных и предсказательных моделей
- Основы работы в Hadoop и MapReduce
- Работа в pyspark
…
Блок 7: «Обработка больших данных»
- Улучшение качества работы с данными
- Основы архитектуры хранения и обработки больших данных, виды обработки и масштабирования
- Работа с облачными платформами: AWS, EMR, Azure
- Продвинутые подходы в MapReduce
- Организация команды для работы с данными. CRISP-DM
…
Блок 8: «Визуализация данных»
- Сравнительный обзор основных инструментов визуализации данных
- Основные ошибки при проектировании отчетности и визуализации данных
- Расширенные возможности визуализации данных + практика
- Организация хранения данных для целей анализа
- Презентация результата команде
- Решение бизнес-задач в команде
- Как управлять процессами по аналитике
…
Блок 9: Дипломная работа и помощь с трудоустройством
- Работа над дипломным проектом для портфолио
- Подготовка резюме
- Подготовка к собеседованию
- Финальная защита и консультации
Ваше резюме и проф.навыки после курса
Должность: Аналитик Big Data
Зарплата от: 145.000 рублей
- Machine Learning
Построение моделей. Линейные методы, логистическая регрессия и SVM
Продвинутая математика для ML
Методы математической оптимизации. Основы линейной алгебры и теории множеств
Построение ML-моделей
Построение прогнозных и предсказательных моделей - Продуктовые навыки
Построение и анализ MVP-решений, работа с HADI-циклами - Hadoop
Основы архитектуры хранения и обработки больших данных, виды обработки и масштабирования
Мат.статистика
Хороший уровень понимание базы мат.статистики, необходимый для работы с данными - Рекомендательные системы
Навык построения рекомендательных систем для различных отраслей - MapReduce
Продвинутые подходы в MapReduce работы с BigData - SQL
Продвинутый уровень анализа данных за счёт использования SQL-запросов - Python
Построение базовых отчётов и автоматизация работы с помощью библиотек Python - Визуализация данных
Навыки работы с OWOX, продвинутый уровень в Google Data Studio - Презентация данных
Подготовка отчётов и презентация результатов анализа данных
Научитесь внедрять AI и использовать Big Data, чтобы оптимизировать работу компании, повысить прибыль и всегда быть на шаг впереди конкурентов. КУРС ДЛЯ РУКОВОДИТЕЛЕЙ ДЕПАРТАМЕНТОВ И НАПРАВЛЕНИЙ В КРУПНЫХ КОМПАНИЯХ.
Управление Big Data и AI — это отдельная область знаний. Вам не нужно быть техническим экспертом. На курсе вы освоите высокоуровневое понимание технологий и научитесь видеть возможности для роста и трансформации.
Обучение на курсе «Big Data» дает руководителям и менеджерам необходимые компетенции и множество конкретных бизнес-кейсов, которые можно переложить на свои собственные задачи.
Краткая программа курса
12 недель
Как работает Big Data & ML
- Основные понятия
- Модели машинного обучения
- Сбор и хранение данных
- Обработка и аналитика
10 недель
Менеджмент Big Data проектов
- Основные подходы к оцифровке бизнеса
- Как AI может быть полезен руководителю
- Какие люди нужны для реализации проектов по AI
- Планирование в AI проектах
4 недели
Дополнительные аспекты в работе с большими данными
- Юридические аспекты работы с большими данными
- Как презентовать Big Data проект руководству
- Summary. Подготовка проектного предложения
Ваши компетенции после курса
- Понимание возможностей Big Data & Machine Learning для бизнеса
- Умение выстраивать работу с BD и DS командой
- Понимание юридических аспектов работы с большими данными
- Навыки проверки гипотез через MVP
- Навыки работы с датасетами и фреймворками
- Навык планирования Big Data проектов
- Умение выявлять кадровые потребности в бизнесе и находить правильных кандидатов на должности в сфере Big Data
- Понимание алгоритмов искусственного интеллекта и инструментов BD
После успешного обучения
СЕРТИФИКАТ
Персональный сертификат о прохождении специализации. По запросу предоставляется на английском языке
РАЗВИТИЕ КАРЬЕРЫ
— консультации с ментором в течение обучения
— доступ к закрытому клубу выпускников и партнеров
— подборки инженеров, инсайты рынка поставщиков данных
— проекты в ваше портфолио
СООБЩЕСТВО
Сообщество экспертов с бизнес-опытом из разных сфер
- Научитесь работать с большими данными
- Расширьте знания в аналитике
- Перейдите на новый уровень в профессии
- Формат обучения онлайн
- Для кого для всех, кто готов повышать свою грамотность в IT-технологиях
- Документ удостоверение о повышении квалификации установленного образца
Big data — инструменты, подходы и методы обработки огромных объёмов данных
По сути это альтернатива традиционным системам обработки данных.
Что вы узнаете на курсе
Как собрать и управлять командой big data проекта
Освоите подход CRISP-DM: межотраслевой стандартный процесс для исследования данных. Определите компетенции и состав команды.
Как создать стратегию работы с большими данными
Определите, сколько данных вам нужно для нахождения инсайтов. Найдёте задачи под биг дату в своей компании.
Как улучшить результаты обработки данных
Поймёте, как и по каким правилам хранить данные. Сможете обосновывать влияние на сбор данных, мониторинг и отчётность.
Практика на курсе
8+ часов в неделю
интенсивных уроков и практики с экспертами отрасли
9 изучаемых инструментов
must-have для работы с большими данными
Домашние задания
с проверкой и обратной связью от преподавателей курса
Лабораторная работа
от загрузки данных до построения модели
Нетворкинг (работа в команде с экспертом)
имитирует работу над проектом на удалёнке
Дипломный проект
работающая модель классификации данных
Программа курса
Аналитика больших данных
Часто аналитик данных нужен именно в тех компаниях, которые накопили «какую-то свою» Big data. Чтобы понимать, как он может принести пользу для бизнеса, нужно владеть не только стандартными инструментами вроде Excel и SQL, но и знать характерные только для больших данных принципы обработки, иметь представление о компонентах экосистемы Hadoop и облачных платформах для реализации решений по Big data. Мы не только поговорим об этом, но и попрактикуемся работать с главными инструментами.
16 часов теории
8 часов практики
- Традиционные аналитические подходы. Причины выбора Big data среди многообразия подходов
- Машинные методы для обработки данных. Как перестать реагировать и начать прогнозировать
- Культура сбора и источники данных. Дорожная карта и главное правило аналитика
- Предобработка и визуализация данных в pandas для отчётности на примере международного ритейлера
- Улучшение качества работы с данными. Основы архитектуры хранения и обработки больших данных, виды обработки и масштабирования
- Основы работы в Hadoop и MapReduce. Обзор облачных платформ: AWS, EMR, Azure и прочих
- Продвинутые подходы в MapReduce. Работа в pyspark, доступная каждому
- Организация команды для работы с данными. CRISP-DM
Дипломный проект
В дипломном проекте вы примените полученные навыки для решения задачи предсказания: создадите работающую модель классификации, опишете найденные в данных инсайты, разработаете стратегию внедрения хранилища данных и работы с большими данными в реальной компании. Сформулируете цели проекта внедрения больших данных и ключевые метрики, на которые будете влиять с их помощью.
Дипломная работа выполняется самостоятельно под руководством экспертов курса, закрепляет весь спектр знаний и навыков, полученных на программе и систематизирует рабочий опыт.
Гарантия возврата денег
У вас есть три занятия, чтобы попробовать. Если передумаете учиться, скажите — и мы вернём вам всю сумму.
Что вы получите в результате обучения
Аналитик больших данных
Реализованные проекты
- Классификатор и оценка результатов его работы на отложенной (train_test_split) выборке
- Коллаборативная фильтрация (прогнозы на основе данных) в MapReduce
Мои навыки
- Сбор и подготовка данных для анализа
- Понимание бизнес-требований заказчика и организация эффективной команды
- Преобразование неструктурированных данных в простые для восприятия и ценные для бизнеса сведения
- Построение моделей данных из разных неструктурированных источников: таблиц, сайтов и баз данных
- Определение и выбор оптимальной архитектуры для Big Data проекта
- Основы работы с Hadoop и MapReduce: фильтры, сортировки, поиск, группировки, определение мин-макс значений и частоты
- Определение результатов обработки и инсайтов в данных и улучшение качества принятия решений на их основе
Как проходит обучение
- Занятия
Вебинары дважды в неделю. Раз в три занятия — практика на отработку новых знаний.
- Практика
После каждого занятия — тестирование или практическое домашнее задание с проверкой и обратной связью.
- Сопровождение
Каждый студент может пообщаться с экспертами курса, получить помощь координатора и наставников.
- Трудоустройство
Центр развития карьеры поможет с составлением резюме, предложит вакансии и будет сопровождать на всех этапах поиска работы.
Научись использовать силу Big Data и AI для трансформации вашего подразделения или компании.
Курс для руководителей департаментов и направлений в крупных компаниях.
Управление Big Data и AI – это отдельная область знаний, которая требует не столько технических навыков программирования и знания математики, сколько высокоуровневого понимания технологий и умения увидеть возможности для роста и трансформации.
Обучение на курсе «Big Data» дает руководителям и менеджерам необходимые компетенции и множество конкретных бизнес-кейсов, которые можно переложить на свои бизнес-задачи.
Как устроена специализация
Бизнес-задачи из индустрии
За время учёбы вы
реализуете финальный проект и решите 18 бизнес-кейсов по внедрению Big Data/ AI решений из самых разных индустрий.
Технологии Big Data и AI
На курсе вы получите глубокое понимание алгоритмов машинного обучения, инфраструктуры Big Data и технологий искусственного интеллекта.
Менторы и сообщество
Со старта программы вы становитесь частью живого сообщества в Slack. Вы получите экспертную поддержку ментора по реализации проекта.
Живые вебинары с экспертами
На вебинарах можно задать вопрос эксперту, поучаствовать в живом обсуждении на примере вашего дела.
Краткая программа обучения
Как работает Big Data & ML
- Основные понятия
- Модели машинного обучения
- Сбор и хранение данных
- Обработка и аналитика
Менеджмент Big Data проектов
- Основные подходы к оцифровке бизнеса
- Как AI может быть полезен руководителю
- Какие люди нужны для реализации проектов по AI
- Планирование в AI проектах
Дополнительные аспекты в работе с большими данными
- Юридические аспекты работы с большими данными
- Как презентовать Big Data проект руководству
- Подготовка проектного предложения
Ваши компетенции после курса
- Понимание возможностей Big Data & Machine Learning для бизнеса
- Навыки работы с датасетами и фреймворками
- Понимание алгоритмов искусственного интеллекта и инструментов BD
- Умение выстраивать работу с BD и DS командой
- Навыки проверки гипотез через MVP
- Навык планирования Big Data проектов
- Понимание алгоритмов искусственного интеллекта и инструментов BD
- Умение выявлять кадровые потребности в бизнесе и находить правильных кандидатов на должности в сфере Big Data
- Лекция №1 «Введение в машинное обучение»
- Лекция №2 «Python»
- Лекция №3 «Что такое BigData?»
- Лекция №4 «OLAP: What and why?»
- Лекция №5 «IoT and BigData»
- Лекция №6 «Сhallenges of classification»
- Лекция №7 «Formal Context Analysis»
- Лекция №8 «Регрессия»
- Лекция №9 «Хранение и анализ больших данных»
- Лекция №10 «Deep learning»
Самый быстрый способ прокачать свои навыки для IT-специалистов. Научитесь эффективно обрабатывать большие данные, выполняя практические задания на реальном кластере.
Кому подойдет этот курс
Разработчики
Вы программируете, но хотите расширить профессиональные возможности и получить практические навыки работы с большими данными? На курсе вы научитесь работать с Hadoop, MapReduce, Hive, Spark, Kafka, Cassandra и будете выполнять задания на реальном кластере.
Аналитики
Хотите освоить работу с большими данными, чтобы решать более сложные и интересные аналитические задачи?
Вы научитесь использовать инструменты работы с большими, проводить аналитику с помощью SQL и NoSQL инструментов, готовить данные и отчеты на основе больших массивов информации.
Data Engineers
Хотите расширить свой арсенал для работы с данными и структурировать свои знания в DE? Вы узнаете о современных технологиях работы с Big Data, научитесь грамотно их использовать и понимать, какую технологию в каких случаях лучше применять.
Data Scientists
Ловите себя на мысли, что качество модели во многом зависит от правильного сбора и предобработки данных? Вы получите базу по современным инструментам и подходам, необходимым для сбора, хранения и обработки данных; изучите особенности укладки данных для оптимизации вычислений, подготовки фичей и масштабирования ML-моделей.
Набор на курс закрыт
Чему вы научитесь
Часть 1. HDFS, Map Reduce, Hive
Вы научитесь работать с распределенными файловыми системами, познакомитесь с экосистемой Hadoop, разберетесь с оптимизацией MapReduce вычислений и работой с Hive.
Введение в Большие Данные (Big Data). Распределенные файловые системы, Workshop
- Вводная часть: знакомство (задачи, оценки, дедлайны), подробности курса.
• Распределенные файловые системы (GFS, HDFS). Их составляющие, достоинства, недостатки и сфера применения.
• Чтение и запись в HDFS. HDFS APIs: Web, shell.
Hadoop экосистема, MapReduce и не только
- Hadoop Streaming.
- Элементы Hadoop-задачи (Mapper, reducer, combiner, partitioner, comparator).
Оптимизация MapReduce вычислений
- Приложения с несколькими Hadoop-задачами.
• Тюнинг Hadoop-job (настройка партиционирования, сложные ключи, uber jobs).
• Задачи с несколькими входами. Joins в Hadoop.
SQL поверх больших данных (Hive)
- Архитектура Hive, виды таблиц, форматы хранения данных.
• Трансляция Hive-запросов в MapReduce-задачи.
• Сериализация и десериализация.
• Тюнинг Join’ов в Hive.
• Партиционирование, бакетирование, семплирование.
• User defined functions, Hive Streaming.
Часть 2. Spark: from zero to hero
На протяжении этой части курса вы будете работать со Spark: от основных терминов и RDD до Spark DataFrames и оптимизации Spark вычислений.
Модель вычислений Spark: RDD
- Схема выполнения задачи в Spark.
• Основные термины Spark (job, task, stage).
• Представление вычислений в виде графа. Spark Python API. Spark RDD API.
• Broadcast-сообщения и счетчики.
Spark DataFrames, Spark SQL
- Взаимодействие Hive и Spark SQL.
• Отличия DF от RDD.
Оптимизация Spark вычислений
- Spark on YARN.
• Типы stage в Spark.
• Оптимизация операции shuffle.
• Настройка Garbage Collection, тюнинг потребления памяти.
Часть 3. RT, NoSQL, Data layout
Вы научитесь работать с потоковой обработкой данных, познакомитесь с Kafka и Spark Streaming, освоите NoSQL поверх больших данных, подружите Spark с Cassandra.
Потоковая обработка данных (Kafka, Spark Streaming)
- Подходы к Realtime-обработке.
• Гарантии обработки. Переход от одной гарантии к другой. Архитектуры «Лямбда» и «Каппа».
• Spark Streaming vs. Spark RDD, Spark Structured Streaming vs. Spark DataFrames, DStream.
• Архитектура Kafka, Kafka Streams, репликация в Kafka. Отличие Kafka от классических очередей.
• Семантики доставки сообщений. Сжатие данных в kafka. Синхронная и асинхронная репликация.
NoSQL поверх больших данных: Cassandra
- Отличия Key-Value хранилищ от реляционных БД.
• Компактификация и её виды. CQLSH.
• Архитектура Cassandra.
• Обеспечение надёжности и высокодоступности в Key-Value хранилищах.
• Интеграция Spark с Cassandra.
Data Layout
- Как бороться с Data Skew с помощью MapReduce подходов в разных фреймворках.
• Trade-off между CPU и IO-bound приложениями, подходы к сжатию в Big Data, горячие и холодные данные.
• Форматы данных в Big Data: ORC vs Parquet, Avro
Стоимость обучения Big Data
Вы можете пройти курс целиком или по частям
HDFS, Map Reduce, Hive
- Введение в Big Data
- Распределенные файловые системы
- Hadoop экосистема
- Оптимизация MapReduce вычислений
- Hive
25 000 рублей
Spark: from zero to hero
- Модель вычислений Spark: RDD
- Spark DataFrames, Spark SQL
- Оптимизация Spark вычислений
30 000 рублей
RT, NoSQL,
Data layout
- Потоковая обработка данных Kafka
- Spark Streaming
- Cassandra
25 000 рублей
Курс целиком
- Введение в Big Data
- Распределенные файловые системы
- Hadoop экосистема
- Оптимизация MapReduce вычислений
- Hive
- Модель вычислений Spark: RDD
- Spark DataFrames, Spark SQL
- Оптимизация Spark вычислений
- Потоковая обработка данных Kafka
- Spark Streaming
- Cassandra
65 000 рублей
Big Data – современный тренд и предмет высокого спроса со стороны работодателей. Бизнес хочет расти, а для этого требуется анализировать большие объемы данных. Данные о клиентах, продажах, посетителях. На основе больших данных строятся гипотезы и принимаются решения о создании новых продуктов, тарифов, оптимизации расходов.
Мы подготовили для вас новую дипломную программу Аналитик Big Data.
Аналитик Big Data – сотрудник, использующий разнообразные инструменты для анализа и визуализации данных, такие как Tableau, Excel, Power Query/Pivot/Map.
Ваше резюме после прохождения обучения:
- Анализ данных на языке SQL
- Уверенное владение Excel
- Анализ и визуализация данных в Tableau, Power Query/Pivot/Map
- Владение языком Python
- Библиотеки python для визуализации и анализа данных: numpy, pandas, matplotlib
Дополнительно. Чтобы повысить вашу ценность на рынке труда, мы рекомендуем докупить (с перезачетом курса Основы работы с большими данными (Data Science)) дипломную программу «Разработчик BigData»– следующий шаг в вашей карьере. Вы научитесь «готовить» Hadoop и использовать его для обработки больших данных, разрабатывать решения для экосистемы Hadoop.
Введение в науку о больших данных.
Мы научим вас использовать технологии Big Data так, что вы сразу сможете применять их в боевых условиях.
Кому подойдет эта программа?
Начинающим специалистам
Вы уже знакомы с Python, у вас есть базовые знания SQL и вы хотите развиваться в сфере Data Science
Аналитикам и исследователям
Вы уже умеете работать с данными и хотите познакомиться с инструментами для работы с Big Data
Data Science специалистам уровня junior/middle
Вы уже работаете в сфере Data Science и хотите прокачать навыки работы с Big Data
Специалистам в области Data Engineering
Вы уже работаете в сфере Data Engineering и хотите расширить свой кругозор и освоить актуальные технологии
Программа
6 недель • 6 — 10 часов в неделю
Первая неделя
Введение в Big Data для Data Science
- Зачем DS знать Big Data?
- Хранение данных
- Обработка данных
- Практика и задачи по SQL и ClickHouse
- Вводный вебинар первой недели
Вторая неделя
Hadoop
- Архитектура Hadoop
- HDFS
- MapReduce
- Hive
- Hbase
- Практика и задачи
- Вебинар второй недели
Третья неделя
Spark
- Архитектура spark
- Spark Core
- Потоковая обработка данных
- Практика и задачи по Spark
- Вебинар третьей недели
Четвёртая неделя
Workflow
- Управление данными ETL/ELT
- Архитектура хранилищ Data Warehouse vs Data Lake
- Облачные решения
- Apache Airflow
- Практика и задачи по Airflow
- Вебинар четвёртой недели
Пятая неделя
SparkML
- Распределенные модели машинного обучения
- Spark ML компоненты и модели
- Поставка моделей
- Практика и задачи по Spark ML
- Вебинар пятой недели
Шестая неделя
BI Tools
- Работа с данными в Superset
- Аналитические агрегаты
- Вебинар шестой недели
- Дополнительный вебинар про карьеру
Как проходит обучение на программе
Теоретические основы
Вся теория в онлайн-курсе, который можно проходить, когда удобно даже с мобильного. А доступ к материалу останется и после окончания программы
Общение
Общий чат в Telegram, где можно задать вопрос преподавателям и обсуждать тонкости заданий между собой
Вебинары
Каждую неделю – встреча с преподавателями, обсуждение материала и ваших вопросов
Проект
Вы будете работать с реальными базами данных MySQL и ClickHouse, настраивать работу аналитических пайплайнов в AirFlow, визуализировать результаты в BI системах. А преподаватели будут давать много обратной связи
Отзывы на сайте.
Термином «Big Data» (большие данные) обозначают феномен стремительного роста объёмов информации во всех областях деятельности современного общества, появление технологических возможностей анализировать эти огромные массивы данных, и потенциальные перспективы эффективного использования результатов этого анализа для прогнозирования и принятия правильных управленческих решений.
Цель англоязычной магистерской программы Business Analytics and Big Data Systems (Бизнес-аналитика и системы больших данных) — подготовка профессионалов, способных оценить влияние технологий больших данных на деятельность организаций, умеющих разрабатывать новые модели информационной инфраструктуры предприятия с учетом возможностей технологий больших данных, организовать работу по внедрению основанного на технологиях больших данных аналитического инструментария и решений для управления большими данными, способных оценить экономическую эффективность таких проектов, управлять данными предприятия.
К обязательным предметам относятся следующие дисциплины:
- Economic and Mathematic Modeling (Экономико-математическое моделирование)
- Enterprise architecture perfection (Совершенствование архитектуры предприятия)
- Methods and Tools for the Intellectual Analysis of Big Data (Методы и средства интеллектуального анализа больших данных)
- Strategic innovation management (Стратегическое управление инновациями).
- System Analysis and Organization Design (Системный анализ и проектирование)
В качестве дисциплин по выбору предлагаются следующие курсы:
- Advanced Data Management (Современный менеджмент данных)
- Applied Blockchain in the Modern Enterprise Architecture (Прикладной блокчейн в архитектуре современного предприятия)
- Applied Machine Learning (Прикладные аспекты машинного обучения)
- Big Data Based Marketing Analytics (Маркетинговая аналитика на основе больших данных)
- Big Data Collection, Storage&Processing in Heterogeneous Distributed Computer Networks (Сбор, хранение и обработка данных в гетерогенных распределенных компьютерных сетях)
- Big Data Systems Development and Implementation (Разработка и внедрение систем больших данных)
- Cloud Technologies (Облачные технологи)
- Data analytics and visualization for business (Аналитика и визуализация данных для бизнеса)
- Digital Platforms and Ecosystems of Modern Business (Цифровые платформы и экосистемы современного бизнеса)
- Knowledge Management (Управление знаниями)
- Leadership and Project Team Management (Лидерство и управление командой проекта)
- Manufacturing Data Collection and Analytics (Сбор и аналитика производственных данных)
- Neural Networks and Deep Learning (Нейронные сети и глубокое обучение)
- Predictive Modelling (Предсказательное моделирование)
- Theoretical Basics of Distributed Information Processing in Big Data Systems (Теоретические основы распределенной обработки информации в системах больших данных)
Расписание ближайших курсов Apache Hadoop, Spark, Kafka, машинному обучению и другим технологиям BigData | |||
Код курса | Название курса | Цена | Ак.часов |
Курсы Big Data для руководителей и архитекторов | |||
BDAM | Аналитика больших данных для руководителей | 54000 | 24 |
ARMG | Архитектура Данных | 54000 | 24 |
Курсы Apache Hadoop для инженеров данных и администраторов кластера | |||
INTR | Основы Hadoop | 54000 | 24 |
HADM | Администрирование кластера Hadoop | 90000 | 40 |
DSEC | Безопасность озера данных Hadoop на платформе CDP | 54000 | 24 |
HDDE | Hadoop для инженеров данных | 90000 | 40 |
Курсы Apache Kafka | |||
KAFKA | Администрирование кластера Kafka | 54000 | 24 |
DEVKI | Apache Kafka для разработчиков | 72000 | 32 |
Курсы Apache Spark | |||
SPARK | Анализ данных с Apache Spark | 54000 | 24 |
CORS | Core Spark | 36000 | 16 |
SPOT | Потоковая обработка в Apache Spark | 36000 | 16 |
MLSP | Машинное обучение в Apache Spark | 36000 | 16 |
GRAS | Графовые алгоритмы в Apache Spark | 36000 | 16 |
Курсы администрирования и разработки NoSQL и SQL-on-Hadoop | |||
NOSQL | Интеграция Hadoop и NoSQL | 90000 | 40 |
HIVE | Hadoop SQL администратор Hive | 18000 | 8 |
HBASE | Администрирование кластера HBase | 72000 | 32 |
IMPA | Cloudera Impala Data Analytics | 18000 | 8 |
GPDE | Greenplum для инженеров данных | 54000 | 24 |
Курсы разработчиков Data Flow и обучение дата-инженеров | |||
NIFI | Кластер Apache NiFi | 36000 | 16 |
AIRF | Data Pipeline на Apache Airflow и Apache Hadoop | 54000 | 24 |
Курсы Big Data Scienсe и Machine Learning | |||
DPREP | Подготовка данных для Data Mining на Python | 48000 | 32 |
PYML | Машинное обучение на Python | 36000 | 24 |
VIP | Визуализация данных на языке Python | 48000 | 32 |
PYNN | Нейронные сети на Python | 36000 | 24 |
PNLP | NLP с Python | 60000 | 40 |
VISI | Учебный курс Computer vision на Python | 60000 | 40 |
Авторизированные курсы Arenadata | |||
ADH | Администрирование кластера Arenadata Hadoop + сертификация | 144000 | 40 |
ADHI | Основы Arenadata Hadoop + сертификация | 90000 | 24 |
ADS-KAFKA | Администрирование Arenadata Streaming Kafka + сертификация | 90000 | 24 |
ADB | Эксплуатация Arenadata DB + сертификация | 144000 | 32 |
ADBR | Arenadata DB для разработчиков + сертификация | 144000 | 32 |
ADQM | Эксплуатация Arenadata QuickMarts + сертификация | 72000 | 16 |
CertAD | Cертификация Arenadata | 9000 | 0,4 |
Авторские курсы Arenadata | |||
ADH-AIR | Data pipeline на Apache AirFlow и Arenadata Hadoop | 54000 | 24 |
СПЕЦИАЛИЗАЦИИ КУРСОВ ПО БОЛЬШИМ ДАННЫМ
РУКОВОДИТЕЛЬ
Узнайте, как перейти на data-driven управление, повысить монетизацию и снизить затраты своего бизнеса с помощью Big Data, успешно запускать проекты цифровой трансформации и эффективно внедрять высокие технологии в рабочие процессы
DATA SCIENTIST
Обучайте нейросети на качественных датасетах, стройте высокоточные модели Machine Learning с применением самых современных алгоритмов и MLOps-инструментов
АДМИНИСТРАТОР КЛАСТЕРА
Обеспечьте бесперебойную работу всех корпоративных систем с гарантиями информационной безопасности, автоматической балансировкой нагрузки и непрерывным мониторингом каждого сервиса
АНАЛИТИК ДАННЫХ
Выявляйте тренды, находите причины, прогнозируйте будущее и определяйте ценные для бизнеса инсайты, делая сложные запросы к NoSQL-СУБД, озерам и корпоративным хранилищам данных
ИНЖЕНЕР DATA FLOW
Разрабатывайте уникальные data pipelines, обеспечивая сбор, преобразование и загрузку данных в локальные СУБД, озера и облачные хранилища для пакетной и потоковой аналитики с помощью современных DataOps-инструментов
РАЗРАБОТЧИК И DEVOPS-ИНЖЕНЕР
Создавайте распределенные приложения для аналитики больших данных и межсистемной интеграции, используя лучшие DevOps-практики, современные подходы и надежные Big Data фреймворки