Data-scientist: кто это, обязанности, зарплаты и как им стать в 2022 году. Обзор профессии.

Обучение
Содержание

Кто такой data-scientist?

Data Scientist — это специалист по обработке больших данных, который собирает и анализирует большие массивы структурированных и неструктурированных данных. В работе специалиста по анализу данных сочетаются компьютерные науки, статистика и математика. Они анализируют, обрабатывают и моделируют данные, а затем интерпретируют результаты для создания практических планов для компаний и других организаций.

Что делают data-scientist и чем занимаются?

Обязанности на примере одной из вакансий:

  • Восстановление информации о клиентах, их потребностях, событиях и контексте в жизни клиента на основании цифровых следов,
  • Определение геолокаций клиентов по косвенным данным
  • Графовые модели, поиск финансовых и социальных связей, поиск сомнительных операций и преступных холдингов
  • Прогнозирование финансовой деятельности предприятий, построение моделей потенциала и востребованности продуктов Банка и экосистемы
  • Создание контекстно-рекомендательных систем и Next Best Action
  • Построение предиктивных Data Driven сервисов для клиентов;
  • Работа с естественным языком и неструктурированным текстом. Распознавание и извлечение сущностей из документов для автоматизации рутинных операций и классификации документов. Автоматизированная генерация типовых документов;
  • Построение AutoML решений для максимального быстрого прототипирования;
  • Построение моделей ожидаемой доходности банковских продуктов и прочих доходов от клиентов;
  • Полная поддержка своих моделей: от написания запроса для выгрузки обучающей выборки из хранилищ данных до анализа результатов A/B-экспериментов и переключения всех пользователей на новый функционал;

Что должен знать и уметь data-scientist? 

Требования к data-scientist:

  • знание современных методов эконометрики, теории вероятностей, математической статистики, стохастических процессов;
  • владение пакетами эконометрического анализа и языками программирования (R, Python, Matlab);
  • владение английским языком (чтение профессиональных текстов);
  • Знание статистики и умение ее применять (Методы статистического вывода, проверка гипотез, statsmodels);
  • Умение работать с базами данных: оконные функции, индексы, оптимизация запросов (postgres, mongo);
  • Желание разбираться в предметной области, работать с заказчиками.

Востребованность и зарплаты data-scientist

На сайте поиска работы в данный момент открыто 738 вакансий, с каждым месяцем спрос на data-scientist растет.

Количество вакансий с указанной зарплатой data-scientist по всей России:

  • от 135 000 руб. – 100
  • от 210 000 руб. – 78
  • от 285 000 руб. – 50
  • от 365 000 руб. – 13
  • от 440 000 руб. – 8

Вакансий с указанным уровнем дохода по Москве:

  • от 135 000 руб. – 68
  • от 210 000 руб. – 54
  • от 285 000 руб. – 34
  • от 365 000 руб. – 10
  • от 440 000 руб. – 7

Вакансий с указанным уровнем дохода по Санкт-Петербургу:

  • от 250 000 руб. – 16
  • от 280 000 руб. – 12
  • от 310 000 руб. – 5
  • от 340 000 руб. – 4

Как стать data-scientist и где учиться?

Варианты обучения для data-scientist с нуля:

  • Самостоятельное обучение – всевозможные видео на YouTube, книги, форумы, самоучители и т.д. Плюсы – дешево или очень недорого. Минусы – нет системности, самостоятельное обучение может оказаться неэффективным, полученные навыки могут оказаться невостребованными у работодателя;
  • Онлайн-обучение. Пройти курс можно на одной из образовательных платформ. Такие курсы рассчитаны на людей без особой подготовки, поэтому подойдут большинству людей. Обычно упор в онлайн-обучении делается на практику – это позволяет быстро пополнить портфолио и устроиться на работу сразу после обучения.

Ниже сделали обзор 15+ лучших онлайн-курсов.

15+ лучших курсов для обучения data-scientist: подробный обзор

Стоимость: Рассрочка на 31 месяц — 6 639 ₽ / мес
  • Три специализации на выбор
  • Проекты на основе реальных задач
  • Трудоустройство во время учёбы
  • Преподаватели эксперты из сферы Data Science.

Специалисты по Data Science работают с Big Data, выдвигают гипотезы и проверяют их, помогают бизнесу принимать решения на основе анализа данных.

Они создают модели машинного обучения, тренируют нейросети для работы с текстом, видео или изображениями, строят поисковые и рекомендательные системы, разворачивают и поддерживают инфраструктуру для автоматизации работы с данными.

Кому подойдёт этот курс:

  • Новичкам
    С нуля освоите Python, SQL, научитесь собирать и анализировать данные, получите необходимый теоретический минимум по математике, теории вероятности и статистике. Знания закрепите на практике — решите задачи на основе реальных кейсов и добавите проекты в портфолио. Устроитесь на стажировку по выбранной специальности уже во время обучения.
  • Программистам
    Подтянете математику, статистику, аналитическое и алгоритмическое мышление, научитесь выявлять потребности бизнеса. Получите опыт работы с моделями машинного обучения, будете применять Python для решения задач с данными. Пройдёте процесс от сбора данных до деплоя модели.
  • Начинающим аналитикам
    Вы научитесь выдвигать гипотезы и делать выводы на основе данных. Сможете писать эффективный код на Python, превращать сырые данные в полезную информацию для компании, понимать математику на основе статистики, обучать машины и прогнозировать результаты. Отшлифуете знания, увеличите скорость своей работы и добьётесь повышения.

Кем вы станете после курса?

Вариант 1. Специалист по Machine Learning
Будете анализировать большие объёмы информации, создавать модели для прогнозирования в бизнесе, медицине, промышленности. Обучать нейросети, создавать аналитические системы и рекомендательные сервисы на основе алгоритмов машинного обучения. Продолжите профессиональное развитие в сфере обработки естественного языка или Computer Vision.

Вариант 2. Дата-инженер
Будете разворачивать программную инфраструктуру для организации сбора, обработки и хранения данных. Вам предстоит решать сложные, но интересные задачи: создавать отказоустойчивые системы для работы с Big Data, писать эффективный код на Python и SQL-запросы, автоматизировать рутину, «общаться» с базами данных, работать с облачными платформами.

Вариант 3. Аналитик данных
Будете помогать бизнесу принимать верные решения на основе данных. Собирать информацию и анализировать её, находить аномалии в метриках. На основе исследований будете выявлять закономерности, строить гипотезы и проверять их жизнеспособность с помощью моделирования. Научитесь визуализировать результаты работы в виде графиков и диаграмм.

Программа

Вас ждут 15 курсов с различным уровнем сложности, онлайн-лекции и практика.
3 специализации, 3 бонусных курса

Первая ступень

  1. Введение в Data Science
  • Познакомитесь с основными направлениями Data Science, узнаете, какие задачи решают дата-аналитики, дата-инженеры и специалисты по машинному обучению.
  • Пройдёте все этапы работы с данными. Научитесь выявлять проблемы, собирать бизнес-требования. Будете выгружать данные из различных источников, проводить разведочный анализ и готовить датасет к дальнейшему использованию. Обучите и внедрите готовую ML-модель, попробуете себя в роли продуктового и маркетингового аналитика. Узнаете, как формулировать и проверять гипотезы. Освоите базовые инструменты для работы: Python, SQL, Excel, Power Bi, Airflow.
  1. Основы статистики и теории вероятностей
  • Поймёте принципы работы со случайными величинами и событиями. Познакомитесь с некоторыми видами распределений и статистическими тестами, которые пригодятся при составлении моделей и проверке гипотез.
  1. Основы математики для Data Science
  • Получите базовые знания по математике для работы с машинным обучением. Поймёте, что такое аппроксимация, интерполяция, функции, регрессии, матрицы и вектора. Научитесь работать с математическими сущностями в Python-библиотеке SymPy.

Специализации на выбор

  1. Machine Learning
  • Machine Learning. Junior. Познакомитесь с алгоритмами машинного обучения для решения задач регрессии, классификации и кластеризации. Построите и обучите свою первую нейронную сеть. Научитесь подбирать параметры модели, оценивать качество и улучшать её, а также выводить результат в Production.
  • Machine Learning. Advanced. Освоите алгоритмы для построения рекомендательных систем и прогнозирования временных рядов. Научитесь применять ансамблевые методы, стекинг, бустинг, а также лучшие практики кросс-валидации, мониторинга и пайплайна ML-разработки.
  • Deep Learning. Научитесь работать с нейросетями: подробно узнаете, как они устроены, будете обучать модели, строить и тестировать архитектуры, передавать данные в нейросеть и настраивать параметры.
  • Трек 1. NLP. Научитесь применять алгоритмы машинного обучения и нейронные сети для обработки естественного языка. Узнаете, как анализировать тональность текстов, классифицировать их, распознавать речь.
  • Трек 2. Computer Vision. С помощью алгоритмов машинного обучения и нейросетей будете распознавать объекты, лица и эмоции, классифицировать и сегментировать изображения. Научитесь применять и адаптировать готовые модели CV для своих целей.
  1. Data Engineer
  • Data Engineer. Junior. Будете собирать сложные наборы данных, подготавливать витрины данных, разворачивать DS-проекты с нуля, тестировать код, выстраивать пайплайны для работы с данными и работать в команде.
  • Data Engineer. Advanced. Научитесь пользоваться типовыми средствами мониторинга, настраивать алерты. Будете выбирать архитектуру для хранения данных и работать со сложными типами архитектуры хранилищ. Выстраивать инфраструктуру и пайплайны для обучения ML-моделей.
  1. Data Analyst
  • Data Analyst. Junior. Познакомитесь с базовыми методами анализа на примере анализа продаж. Пройдёте основы маркетинговой, BI и продуктовой аналитики. Прокачаете навыки работы в Excel, Python и Power BI. Будете уметь формулировать и тестировать гипотезы и презентовать результаты заказчику.
  • Трек 1. Product Analytics. Будете обрабатывать данные, исследовать взаимодействие пользователей с продуктом, интерпретировать собранную информацию. Полученные результаты помогут решить задачи бизнеса.
  • Трек 2. Marketing Analytics. Узнаете, как настраивать веб- и сквозную аналитику, создавать воронки продаж, анализировать поведение пользователей на сайте.
  • Трек 3. BI Analytics. Научитесь создавать хранилища данных, проектировать базы данных на языке SQL и работать с таблицами на продвинутом уровне. Будете решать бизнес-задачи с помощью аналитики, чистить данные, правильно их хранить и визуализировать.

Дипломные проекты

  1. Machine Learning
  • Соревнование в Kaggle.
  • Командная работа в проекте.
  1. Data Engineer
  • Индивидуальный проект.
  • Хакатон.
  1. Data Analyst
  • Командный проект.
  • Индивидуальное исследование.

Бонусные курсы

  1. Карьера разработчика: трудоустройство и развитие
    Узнаете, как выбрать подходящую вакансию, подготовиться к собеседованию и вести переговоры с работодателем. Сможете быстрее получить должность, которая соответствует вашим ожиданиям и умениям.
  2. Система контроля версий Git
    Научитесь версионировать изменения в коде, создавать и управлять репозиториями, ветками, разрешать конфликты версий. Узнаете полезные правила работы с Git.
  3. Английский для IT-специалистов
    Получите языковые навыки, которые помогут пройти собеседование в иностранную компанию и комфортно общаться в смешанных командах.
Стоимость: 156 000 ₽ или рассрочка на 36 месяцев — 4 333 ₽ / мес

Вы научитесь не только работать с аналитикой, нейронными сетями, Big Data и помогать компаниям и продуктам расти с помощью технологий, но и освоите ключевые «мягкие навыки»: коммуникацию в команде, целеполагание и эмоциональный интеллект.

Обучение на курсе поможет вам:

  • Перейти в профессию с высоким окладом, которая не устареет через 10 лет
    Положите начало своему развитию в востребованной во всех отраслях бизнеса профессии
  • Освоить ключевые технологии и опередить запрос рынка
    Станете востребованным специалистом уже в процессе обучения и не растеряете накопленные знания и навыки
  • Прожить опыт 2-3 лет самостоятельного изучения сферы Data Science
    Получите знания в концентрированном формате и с обратной связью от экспертов-практиков ведущих компаний.

Чему вы научитесь:

  1. Работать с SQL
    Научитесь писать запросы, работать с данными в базе без переноса в таблицы, загружать данные и сохранять историю, работать с разными форматами файлов
  2. Использовать Python и библиотеки
    Автоматизировать работу с большими массивами, получать данные из внешних источников, обосновывать выводы, полученные при анализе данных
  3. Проверять данные и определять проблемы
    Обрабатывать текстовые данные, чтобы передавать их в алгоритмы машинного обучения, генерировать новые значимые признаки
  4. Обучать многослойные нейронные сети и строить модели машинного обучения
    Быстро строить модели и проверять гипотезы, строить рекомендательную систему и нейронную сеть, выявлять скрытые аномалии в данных
  5. Применять математику в алгоритмах
    Освоите необходимый математический аппарат для продуктивной работы с моделями данных, машинным обучением и нейронными сетями
  6. Лидировать Data-проекты, работать в команде и находить общий язык с заказчиком
    Структурировать результаты, формулировать гипотезы, выявлять потребности, находить области применения машинного обучения.

Программа курса:

1 ступень. Погружение
В первом модуле вы разберётесь, что такое аналитическое мышление, и узнаете, откуда берутся данные. Научитесь определять ключевые продуктовые метрики и создавать дашборды.

  • Аналитическое мышление
    Научитесь думать, как аналитик и формулировать гипотезы для проверки. Поймёте, что аналитика строится вокруг данных. Познакомитесь с базовым инструментом аналитика и сможете проводить в нём простой анализ данных.
  • Основы визуализации данных
    Поймёте, как создавать наглядные интерактивные дашборды для анализа бизнес-метрик в онлайн-режиме. Научитесь определять ключевые продуктовые метрики и создавать дашборды.

2 ступень. SQL, Python и Big Data
Вы получите ключевые навыки специалиста в Data Science для старта в профессии и сможете искать стажировку в новой сфере уже после прохождения первой ступени.

  • SQL и получение данных
    В идеальном мире data scientist получает готовые данные, чтобы строить модели, но мир неидеален. Вы научитесь с помощью SQL получать данные из БД, фильтровать, агрегировать, а также импортировать и экспортировать.
  • Аналитика больших данных
    Узнаете, как собрать и управлять командой Big Data-проекта. Освоите подход CRISP-DM, определите компетенции и состав команды. Определите, сколько данных вам нужно для нахождения инсайтов. Найдёте задачи под Big Data в своей компании. Поймёте, как и по каким правилам хранить данные. Сможете обосновывать влияние на сбор данных, мониторинг и отчётность.
  • Python для анализа данных
    Вы научитесь пользоваться базовыми инструментами и подходами в Python, чтобы начать работать с данными. Повторите основы линейной алгебры, теории множеств, методов математической оптимизации, описательной статистики, статистического анализа данных, а также научитесь реализовывать это на языке Python.
  • Математика для анализа данных
    Изучите основные операции с векторами, матричными операциями. Рассмотрите генетические алгоритмы, алгоритм дифференциальной эволюции. Узнаете, что такое математическое ожидание, дисперсия и моменты старших порядков. Изучите закон больших чисел.

3 ступень. Машинное обучение, Deep Learning и нейронные сети
Получите расширенные знания в профессии и научитесь работать с нейронным сетями, обучать модели и реализовывать NLP. Начнёте повышать свою квалификацию. После окончания этой ступени сможете претендовать на позицию Junior Data Scientist и совмещать учёбу с работой.

  • Машинное обучение
    Научитесь проверять данные на полноту, целостность, валидность, наличие шумов, ошибок и пропусков. Узнаете, как очищать данные с помощью NumPy и pandas, как сокращать размерности данных алгоритмами PCA, LDA, NMF. Научитесь строить деревья решений и модели логистической, линейной и полиномиальной регрессии. Узнаете, как использовать Random Forest в задачах классификации.
  • Рекомендательные системы
    В этом и следующих блоках вы будете применять полученные знания в разных областях машинного обучения. Во время этого блока научитесь строить персонализированные и неперсонализированные рекомендательные системы, а также комбинировать их.
  • Временные ряды
    Вы изучите элементарные алгоритмы обработки временных рядов, модели ARIMA и GARCH, прогнозирование значений на их основе. Узнаете, что такое марковские случайные процессы и марковские модели для временных рядов.
  • Нейронные сети
    Научитесь строить простые полносвязанные сети уровня LeNet и AlexNet и экспериментировать с их обучением. Получите теоретическую и практическую базу для использования НС в блоках CV и NLP.
  • Компьютерное зрение
    Вы освоите основные техники машинного зрения — извлечение признаков, поиск по картинкам, сегментирование, детекция объектов.
  • Обработка естественного языка
    Вы освоите морфологический и синтаксический анализ, дистрибутивную семантику и информационный поиск, научитесь снижать размерность в векторной модели, классифицировать, извлекать информацию и генерировать тексты.
  • Deep Learning
    Научитесь работать с многомерными свёртками, овладеете конкурентным преимуществом в задачах с использованием Beam-Search и Teacher Forcing, сможете реализовывать NLP с нуля. Сможете отличать дескриминатор от генератора и обучать генератор выбирать данные из линейной регрессии. Реализуете сеть генерации покемонов и обучите её.

4 ступень. Soft Skills и управление проектами
Сочетание хард- и софт-скиллов поможет вам быстрее расти по карьерной лестнице и добиваться больших результатов. Пройдя все ступени программы, вы сможете претендовать на должность Middle Data Scientist.

  • Менеджмент data-проектов
    Овладеете методологиями управления Data Science-проектами. Научитесь формулировать идеи и гипотезы, выбирать подходящие методы и алгоритмы, планировать решение задачи.
  • Эффективные коммуникации и эмоциональный интеллект
    Научитесь понимать картину мира окружающих и на основе этого строить коммуникацию. Разберётесь, как управлять своими эмоциями, как реагировать на эмоции окружающих в процессе общения и развивать эмоциональный интеллект. Узнаете, как управлять эмоциями в переговорах. Научитесь заводить полезные связи и деловые знакомства и правильно презентовать себя.
  • Переговоры
    Научитесь грамотно организовывать деловые встречи и эффективно проводить переговоры, добиваясь взаимовыгодных договорённостей.
  • Публичные выступления
    Узнаете, как презентовать идею или отчёт. Научитесь получать удовольствие от выступлений и перестанете их бояться.
  • Финальный хакатон и Kaggle Competitions
    В составе мини-команды за ограниченное время и на основе датасетов крупных игроков рынка вам придётся решать задачи по прогнозированию продаж или оптимизации производства, задействуя все знания и навыки, полученные на курсе.
    Интеграция и использование machine learning решений в бизнесе, как правило, подразумевает командную игру, поэтому хакатон полезен ещё и как тренировка необходимых soft skills.

В рамках дипломного проекта вы сможете построить ML-модель для решения своих текущих профессиональных задач: это может быть система прогнозирования продаж, распознавание объектов на фото или видео, анализ временных рядов, анализ больших объёмов текста и т. д.

Вашу квалификацию подтвердит диплом о профессиональной переподготовке.

Стоимость: Рассрочка на 36 месяцев — от 4 989 ₽ / мес

После учебы вы сможете работать по специальностям

  • Data Scientist
  • Data Analyst
  • Machine Learning Engineer
  • Computer Vision-специалист
  • NLP-специалист.

У курса два формата обучения:

  • живые вебинары;
  • видеолекции в записи.

Программа обучения

Подготовительные курсы

Их необязательно проходить, но они помогут лучше погрузиться в обучение.

  • Видеокурс: как учиться эффективно
  • Основы математики
  • Основы программирования
  • Основы языка Python
  • Базовый курс

I четверть. Программирование
Научитесь работать в Linux и создавать сервера в облачных сервисах AWS, проводить поиск информации и основные операции с файлами, выполнять мониторинг работы сервера. Научитесь использовать язык запросов SQL, создавать и оптимизировать сложные запросы. Освоите библиотеки языка Python, предназначенные для Data Science: Numpy, Pandas, Matplotlib, SciKit-Learn.

  • Встреча декана со студентами
  • Основы языка Python
  • Рабочая станция
  • Основы реляционных баз данных и MySQL
  • Библиотеки Python для Data Science: Numpy, Matplotlib, Scikit-learn

II четверть. Сбор данных и статистическое исследование
Познакомитесь с теорией вероятностей и математической статистикой. Изучите методы проведения корреляционного, дисперсионного и регрессионного анализа. Научитесь работать с RESTful/SOAP-сервисами, форматами XML и JSON в Python, а также познакомитесь с особенностями открытых данных (OpenData).

  • Библиотеки Python для Data Science: продолжение
  • Методы сбора и обработки данных из сети Интернет
  • Введение в математический анализ
  • Теория вероятностей и математической статистике

III четверть. Математика для Data Scientist
Рассмотрите математические аспекты алгоритмов, применяемых в Data Science: линейная и логистическая регрессия, градиентный спуск, метод ближайших соседей, кластеризация, деревья решений, случайный лес, градиентный бустинг. Поймете, как устроены алгоритмы на уровне математики.

  • Линейная алгебра
  • Алгоритмы анализа данных

IV четверть. Машинное обучение
Освоите Python: от основ программирования до автоматизации, сбора, обработки, анализа и визуализации данных.

  • Машинное обучение в бизнесе
  • Рекомендательные системы
  • Видеокурс от Мегафон + курсовой проект

V четверть. Нейронные сети
Научитесь решать задачи Machne Learning с данными из соцсетей, геоданными, применением графов, а также познакомитесь с нейронными сетями. На практике познакомитесь с фреймворками для разработки нейронных сетей: Tensorflow, Keras, PyTorch.

  • Введение в нейронные сети
  • Фреймворк PyTorch для разработки искусственных нейронных сетей.

VI четверть. Задачи искусственного интеллекта
Изучите продвинутые архитектуры сверточных нейронных сетей, обработку естественного языка и компьютерное зрение.

  • Введение в обработку естественного языка
  • Глубокое обучение в компьютерном зрении

II четверть. Специализация
Изучите фреймворк PyTorch и углубитесь в работу с компьютерным зрением и обработкой естественного языка.

  • Введение в компьютерное зрение от Nvidia
  • Фреймворк PyTorch для разработки искусственных нейронных сетей
  • Введение в обработку естественного языка

Курсы вне четверти

Предметы с индивидуальным выбором даты старта

  1. Подготовка к поиску работы
  2. История развития искусственного интеллекта
  3. Алгоритмы и структуры данных на Python
  4. Введение в высшую математику
  5. Спортивный анализ данных. Платформа Kaggle
  6. Язык R для анализа данных
  7. Визуализация данных в Tableau
  8. Сверточные нейронные сети в компьютерном зрении.

Вы получите диплом о профессиональной переподготовке
Для работодателя это показатель, что вы разобрались в Data Science и самостоятельно выполнили проекты из вашего портфолио.

Стоимость: разная стоимость

Курсы по Data Science:

  • «Data Scientist»
    Освойте самую востребованную профессию 2021 года. Начните свой путь в Data Science уже сейчас.
  • «Data Science»
    Погрузитесь в Data Science — научитесь выявлять закономерности в данных и создавать модели для решения бизнес-задач в технологических компаниях
  • «Математика для Data Science»
    Прокачайтесь в математике и статистике для Data Science — уверенно решайте нетиповые задачи и успешно проходите собеседования в IT-компании
  • «Data Engineering»
    Освойте Data Engineering — научитесь собирать данные из разных источников, помогайте аналитикам строить гипотезы и принимать бизнес-решения
  • «Нейронные сети»
    Освойте машинное обучение и программирование нейронных сетей — используйте силу Deep Learning для решения бизнес-задач
  • «Машинное обучение и нейронные сети»
    Используйте возможности алгоритмов в нужной вам сфере — продажах, медицине, банковских услугах или на производстве.
Стоимость: разная стоимость

Курсы:

  1. Spark Developer
  2. NoSQL
  3. DataOps Engineer
  4. Специализация «Системный аналитик»
  5. Математика для Data Science
  6. Machine Learning. Basic
  7. Специализация Machine Learning
  8. Data Engineer
  9. Machine Learning. Professional
  10. Machine Learning. Advanced
  11. Data Warehouse Analyst
  12. Промышленный ML на больших данных
  13. Компьютерное зрение
  14. Супер-практикум по использованию и настройке GIT
  15. Deep Learning
  16. Супер-интенсив «Tarantool»
  17. Анализ данных и машинное обучение в MATLAB.
Стоимость: Рассрочка на 24 месяца — 1 954 ₽ / мес

На данный момент Data Scientist является одной из наиболее востребованных профессий, так как именно эти специалисты отвечают за систематизацию и структурирование больших данных.

Чему вы научитесь:

  • Писать на Python
    Выучите синтаксис одного из самых популярных языков программирования, сможете создавать и применять функции
  • Понимать особенности машинного обучения
    Узнаете ключевые инструменты Machine Learning и научитесь их применять
  • Работать с рекомендательными системами
    Изучите типы и задачи рекомендательных систем, а также сможете создавать собственные
  • Переносить проекты на Hadoop
    Попрактикуемся в работе с Hadoop и разберем подход MapReduce.

Программа курса (12 блоков и воркшопов)

Блок 1: «Python, быстрый старт: типы данных, функции, классы, ошибки»

  • Введение в Python
  • Типы данных, функции, классы, ошибки

Блок 2: «Python, быстрый старт: строки, условия, циклы, списки и словари»

  • Строки, условия, циклы
  • Списки и словари в Python

Блок 3: «Библиотеки для анализа данных: Pandas»

  • Пакеты, файлы, Pandas – начало
  • Pandas – продолжение

Блок 4: «Библиотеки для анализа данных: визуализация»

  • Библиотеки визуализации данных
  • Практика

Блок 5: «Знакомство с машинным обучением»

  • Задачи машинного обучения
  • Ключевые инструменты Machine Learning и их применение

Блок 6: «Основные модели машинного обучения: линейная регрессии»

  • Что такое модели машинного обучения?
  • Линейная регрессия
  • Практика

Блок 7: «Бинарная классификация»

  • Алгоритм бинарной классификации данных
  • Применение на задачах

Блок 8: «Валидация. Почему это важно»

  • Проблема переобучения и недообучения
  • Валидация на отложенной выборке
  • KFold и Stratified KFold валидация

Блок 9: «Решающие деревья»

  • Определение и процесс построения решающего дерева
  • Принцип работы дерево с количественными и категориальными признаками
  • Сравнение дерева решений с линейными моделями

Блок 10: «Feature Engineering, Feature Selection»

  • Состав Feature Engineering
  • Базовые подходы к созданию признаков
  • Состав Feature Selection
  • Разбор кейсов

Блок 11: «Предсказание оттока клиентов и прогноз продаж»

  • Разбор кейса
  • Практическая задача по предсказанию оттока пользователей
  • Практика и применение алгоритмов

Блок 12: «Воркшоп: скоринг кредитного портфеля»

  • Разбор кейса и нюансов
  • Практическая задача.

Выпускники получают сертификат об успешном прохождении курса — что, вместе с дипломным проектом, будет хорошим аргументом при трудоустройстве.

«Специалист по Data Science»это программа по анализу данных и машинному обучению, которая охватывает все разделы современного анализа данных, в том числе глубинное обучение и его применения.

Программа начинается с самых основизучения программирования и базовых разделов математики — и переходит к разделам по машинному обучению, прикладной статистике и обработке данных, работе с большими данными, глубинному обучению, его применениям к изображениям, текстам и сигналам. При разработке программы мы сделали акцент на практическую работу.

По итогам программы вы получите самые актуальные знания в одной из самых востребованных областей 21 века, проекты в портфолио и диплом о профессиональной переподготовке установленного НИУ ВШЭ образца.

Программа:

  1. Python для автоматизации и анализа данных
    18 занятий
  2. Математика для анализа данных
    19 занятий
  3. Прикладная статистика для машинного обучения
    9 занятий
  4. Алгоритмы и структуры данных
    10 занятий
  5. Машинное обучение
    14 занятий
  6. Промышленное машинное обучение на Spark
    8 занятий
  7. Глубинное обучение
    10 занятий
  8. Прикладные задачи анализа данных
    10 занятий.
Стоимость: до 216 590 ₽

Data Science – это наука о данных, которая занимается сбором, представлением, обработкой и анализом данных в цифровой форме, а главное – помогает выделять из общего массива данных полезную информацию. Она связана с такими направлениями как Big Data, машинное обучение и анализ данных и еще целым рядом современных ИТ-направлений.

Специалисту, который занимается такой работой (Data Scientist), нужны знания и навыки сразу в нескольких областях:

  • математика и статистика,
  • программирование,
  • машинное обучение,
  • работа с базами данных,
  • визуализация данных.
Стоимость: нет информации

Чем занимается специалист Data Science?

Задачи специалиста по данным:

  • находит скрытые закономерности и связи во время изучения данных;
  • анализирует данные по необходимому критерию, который покажет эффективность создаваемой модели;
  • визуализирует данные;
  • программирует и тренирует модель машинного обучения;
  • оценивает с коллегами модель с точки зрения экономики;
  • выявляет богатые источники данных, присоединяется к ним с другими потенциально неполными источниками данных и очищает полученный набор;
  • анализирует риски;
  • анализирует внутренние процессы;
  • занимается внедрением моделей в существующие инфраструктуры;
  • дорабатывает модель и следит за процессами;
  • предлагает новые направления для развития бизнеса клиента;
  • занимается разработкой отчетов и прогнозированием;
  • консультирует руководителей и менеджера по продукту, основываясь на полученных данных.

Soft skills для Data Scientist

  1. Ассоциативное мышление.
  2. Способность излагать свои мысли так, чтобы их понял другой человек.
  3. Любопытство для погружения в проблему и дальнейшей работы с гипотезами.
  4. Умение находить эффективные решения проблем.
  5. Внимательность.
  6. Умение работать в команде и находить подход к каждому.
  7. Умение задавать хорошие вопросы.
  8. Дотошность.
  9. Умение визуализировать данные.
Стоимость: нет информации

После курса вы сможете:

  1. работать с разными типами и структурами данных
  2. использовать библиотеки NumPy, Pandas, Matplotlib, Seaborn, Plotly, Sweetviz, Pandas Profiling, SciPy, Scikit-learn, CatBoost и XGBoost
  3. строить продвинутые и интерактивные визуализации
  4. проводить Exploratory Data Analysis и находить взаимосвязи в данных
  5. заполнять пробелы в данных
  6. валидировать гипотезы и анализировать результаты А/В-тестирования
  7. решать задачи прогнозирования и классификации
  8. строить простые ML-модели
  9. начать путь в Data Science.

Программа курса

  1. Введение в Data Science. Знакомство с задачами и инструментами
    Разберитесь, какие задачи входят в область Data Science. Освойте инструменты для интерактивной работы с Python [IPython, Jupyter Notebook и Google Collaboratory]. Ознакомьтесь с библиотекой NumPy и разберитесь в ее преимуществах перед обычными списками. Научитесь создавать массивы и выполнять базовые операции над ними в NumPy.
  2. Линейная алгебра и статистика
    Возобновите знания по линейной алгебре и статистике. Научитесь вызывать векторное умножение, поэлементное сложение OR вычитание и другие функции в NumPy. Научитесь вводить и выводить матрицы и массивы разной величины, находить std и mean, выводить гистограмму одномерного массива.
  3. Работа с табличными данными
    Узнайте, какие задачи Data Science помогает решить библиотека Pandas. Научитесь создавать, импортировать и экспортировать табличные данные в Pandas Dataframe, манипулировать данными, обновлять их значения по индексу. Узнайте, что делать, чтобы не перегружать оперативку.
  4. Matplotlib и Seaborn. Визуализация данных
    Разберите базовые типы визуализации [line chart, scatter plot, bar plot, histogram]. Постройте базовые визуализации с помощью Python в Matplotlib и Seaborn. Узнайте о трех способах визуализации данных из Pandas в Dataframe.
  5. Продвинутые и интерактивные визуализации
    Разберитесь в типах продвинутых визуализаций [heatmap, box plot, pair plot, cumulative plot]. Постройте базовую интерактивную визуализацию в Plotly. Научитесь быстро и удобно анализировать отсутствующие значения в наборе данных с помощью визуализации.
  6. Exploratory Data Analysis и очистка данных
    Научитесь быстро понимать структуру набора данных любого размера и решать проблему наличия выбросов и дубликатов в наборе данных. Проведите Exploratory Data Analysis (EDA) с помощью Pandas, а затем ― с помощью библиотек Sweetviz и Pandas Profiling.
  7. Поиск и устранение отсутствующих значений
    Научитесь выявлять отсутствующие значения в наборе данных, отделять случайно отсутствующие значения от значений, отсутствующих ввиду системной ошибки. Обучитесь нескольким техникам заполнения отсутствующих значений.
  8. Статистический анализ данных
    Ознакомьтесь с библиотекой SciPy. Научитесь генерировать случайные величины разных вероятностных распределений, проводить тесты нормальности и сравнивать распределения двух случайных величин. Изучите основы проверки статистических гипотез. Проведите статистический тест в SciPy и проанализируйте результаты А/В-тестирования.
  9. Задача прогнозирования. Линейная регрессия
    Подготовьте данные для задачи линейной регрессии. Ознакомьтесь с моделью многомерной линейной регрессии и библиотекой Scikit-learn. Постройте многомерную линейную регрессию с помощью NumPy и с помощью Scikit-learn. Научитесь оценивать качества линейной регрессии с помощью метрик MSE, RMSE, MAE.
  10. Задача прогнозирования. Другие виды регрессий
    Ознакомьтесь с моделями полиномиальной регрессии, гребневой регрессии, регрессии по методу LASSO и регрессии «эластичная сеть». Научитесь улучшать качество линейной регрессии с помощью регуляризации. Узнайте, что делать в случае высокого bias OR высокого variance модели.
  11. Задача классификации. Логистическая регрессия
    Ознакомьтесь с задачей бинарной классификации и моделью логистической регрессии. Обучите модель логистической регрессии для классификации данных и оцените ее качество. Научитесь оценивать качество модели мультиклассовой классификации.
  12. Деревья принятия решений
    Изучите принцип работы модели «Деревья принятия решений». Определите отличия этой модели от остальных. Обучите модель «Деревья принятия решений» для решения задач регрессии и классификации.
  13. Ансамбли моделей
    Изучите базовые техники построения ансамблей. Научитесь строить и обучать разные типы ансамблей моделей. Определите, какой способ ансамблирования необходимо использовать в случае high bias, а какой ― в случае high variance.
  14. Библиотеки CatBoost и XGBoost
    Ознакомьтесь с библиотеками CatBoost и XGBoost. Узнайте, какие задачи они решают и чем отличаются друг от друга. Научитесь улучшать XGBoost-модель за счет оптимальных гиперпараметров модели.
  15. Кластерный анализ данных
    Узнайте, как обучить модель без учителя с помощью кластеризации. Изучите теорию и разберите на примерах, как работают методы кластеризации в моделях K-Means, DBSCAN и Agglomerative Clustering. Найдите группы похожих экземпляров в массиве данных с помощью кластеризации.
  16. Отбор признаков и уменьшение соразмерности данных
    Изучите простые способы выбора признаков. Выберите признаки так, чтобы оставить только самые значимые для модели. Научитесь применять методы уменьшения соразмерности данных для ML-модели [Singular Value Decomposition, Principal Component Analysis, Linear Discriminant Analysis].
Стоимость: 95 000 ₽ — 104 000 ₽

Специалист по Data Science структурирует и анализирует большие объёмы данных, применяет машинное обучение для предсказания событий и обнаружения неочевидных закономерностей. Помогает создавать и улучшать продукты в бизнесе, промышленности и науке. Мы хотим научить вас основным инструментам этой профессии: Python и его библиотекам, в том числе Scikit-Learn и XGBoost, Jupyter Notebook, SQL.

Программа обучения:

  1. Основы Python и анализа данных: бесплатный вводный курс
    Познакомитесь с языком программирования Python, библиотекой Pandas, а также средой программирования Jupyter. Узнаете основные концепции анализа данных и поймёте, чем занимаются аналитики и специалисты по Data Science.
  2. Предобработка данных
    Научитесь очищать данные от выбросов, пропусков и дубликатов, а также преобразовывать разные форматы данных.
  3. Исследовательский анализ данных
    Изучите основы теории вероятностей и статистики. Примените их для исследования основных свойств данных, поиска закономерностей, распределений и аномалий. Познакомитесь с библиотеками SciPy и Matplotlib. Отрисуете диаграммы, поупражняетесь в анализе графиков.
  4. Статистический анализ данных
    Научитесь анализировать взаимосвязи в данных методами статистики. Узнаете, что такое статистическая значимость, гипотезы и доверительные интервалы.
  5. Сборный проект -1
    Научитесь предварительному исследованию данных, сформулируете и проверите гипотезы.
  6. Введение в машинное обучение
    Освоите основные концепции машинного обучения. Познакомитесь с библиотекой Scikit-Learn и примените её для создания первого проекта с машинным обучением.
  7. Обучение с учителем (классификация и регрессия)
    Углубитесь в самую востребованную область машинного обучения — обучение с учителем. Узнаете, как обращаться с несбалансированными данными.
  8. Машинное обучение в бизнесе
    Примените свои знания о машинном обучении к задачам бизнеса. Узнаете, что такое бизнес-метрики, KPI и A/B-тестирование.
  9. Сборный проект -2
    Подготовите данные для машинного обучения. С помощью модели оцените её качество.
  10. Линейная алгебра
    Заглянете внутрь нескольких изученных ранее алгоритмов и лучше поймёте, как их применять. На практике освоите с нуля главные концепции линейной алгебры: линейные пространства, линейные операторы, евклидовы пространства.
  11. Численные методы
    Разберёте ряд алгоритмов и приспособите их к решению практических задач с использованием численных методов. Разберётесь, как обучаются нейронные сети. Для этого вы освоите приближённые вычисления, оценку сложности алгоритма, градиентный спуск и бустинг.
  12. Временные ряды
    Проанализируете временные ряды. Создадите из них табличные данные и решите задачу регрессии.
  13. Машинное обучение для текстов
    Представите тексты на естественном языке в качестве таблиц с данными. Примените к ним методы классификации и регрессии. Познакомитесь с алгоритмом TF-IDF, языковыми представлениями word2vec и BERT.
  14. Извлечение данных
    Познакомитесь с основными системами хранения данных — реляционными базами и распределёнными хранилищами. Научитесь извлекать эти данные запросами на языке SQL и методами библиотеки PySpark.
  15. Компьютерное зрение
    Немного Deep Learning. Решите базовые задачи на компьютерное зрение с помощью готовых нейронных сетей и библиотеки Keras.
  16. Обучение без учителя
    Познакомитесь с задачами кластеризации и поиска аномалий.
  17. Выпускной проект
    В последнем проекте подтвердите, что освоили новую профессию. Уточните задачу заказчика, пройдёте все стадии анализа данных и машинного обучения. Теперь без уроков домашних заданий — всё как на настоящей работе.

Для кого этот курс:

  • для разработчиков, желающих расширить свои компетенции;
  • для студентов старших курсов и выпускников технических ВУЗов, которые хотят повысить свои шансы на трудоустройство;
  • для аспирантов и соискателей научных степеней, желающих приобрести навыки решения научных и исследовательских задач с использованием современных информационных технологий;
  • для специалистов, желающих повысить свою компетенцию в области Data Mining, Big Data и Data Science.

Вы будете уметь:

  1. осуществлять сбор, обобщение и очистку исходных информационных данных;
  2. находить аналитические зависимости в структурированных и неструктурированных данных;
  3. осуществлять постановку и решение задач математического программирования и исследования операций;
  4. знать и уметь применять основные алгоритмы машинного обучения и математического программирования;
  5. знать, как работает Machine Learning;
  6. уметь пользоваться основными инструментами Data Mining, Big Data и Data Science;
  7. знать основные типы и архитектуру нейронных сетей;
  8. реализовывать, внедрять и обучать Machine Learning модели;
  9. решать задачи Computer Vision, Natural Language Toolkit, а также прогнозирования временных рядов;
  10. знать концепции Map Reduce и CUDA;
  11. знать принципы функционирования высоконагруженных систем;
  12. разрабатывать рекомендательные системы.

Программа курса:

  1. Введение в Data Science
  2. Математические основы Data Science
  3. Основы Data Science и Machine Learning
  4. Основные алгоритмы Machine Learning
  5. Методы предобработки данных
  6. Рекомендательные системы
  7. Распознавание изображений, машинное зрение
  8. Введение в нейронные сети
  9. Распознавание естественного языка
  10. Временные ряды
  11. Общение с заказчиком. Требования к Data Science проектам
  12. Подведение итогов.

Наша цель – научить вас практическому применению Data Science и Машинного обучения. Поэтому мы сделали упор на практические навыки (естественно, не забывая о теории). Каждый преподаватель выступает в роли персонального тренера навыков Data Science и поддерживает на всех этапах курса.

Мы учим не только решать задачи, но и находить их в реальных проектах. Будет тяжело и больно, но вам понравится.

Программа курса

  1. Разведочный анализ данных (EDA)
  • 3 часа и 2 практических задания
  • Введение в python
  • Обработка табличных данных
  • Визуализация данных
  1. Введение в машинное обучение и анализ данных
  • 3 часа и 1 практическое задание
  • Основные направления машинного обучения
  • Примеры применения машинного обучения
  • Метрики и их важность в машинном обучении
  1. Методы машинного обучения
  • 6 часов и 2 практических задания
  • Линейные методы
  • Деревья принятия решения
  • Метод К-ближайших соседей
  1. Анализ текстовых данных
  • 9 часов и 3 практических задания
  • Подход «Bag Of Words»
  • Морфологический и синтаксический анализ текста
  • Выделение фактов из текста
  • Тематическое моделирование
  • Word embedding и Word2Vec
  1. Работа с признаками машинного обучения
  • 3 часа и 2 практических задания
  • Создание новых признаков машинного обучения
  • Подготовка Pipeline-ов
  1. Другие области машинного обучения
  • 9 часов и 3 практических задания
  • Онлайн-обучение
  • Введение в рекомендательные системы
  • Введение в Deep Learning
  1. Ансамблирование методов машинного обучения
  • 3 часа и 1 практическое задание
  • Случайный лес
  • Градиентный бустинг
  • Стекинг
  • Блендинг
  1. Анализ временных рядов
  • 3 часа и 1 практическое задание
  • ARIMA-подход
  • Классическое машинное обучение на временных рядах
  • Facebook Prophet
  • Amazon GluonTS
  1. Машинное обучение без учителя
  • 3 часа и 2 практических задания
  • Кластеризация
  • Снижение размерности
  • Применение подходов машинного обучения без учителя для генерации новых признаков
  1. Машинное обучение в production
  • 3 часа и 1 практическое задание
  • Как завернуть модель машинного обучения в web-сервис
  • Как настроить переобучение модели
  • Особенности внедрения машинного обучения в production
  • Docker-образ для Data Science
  1. Хакатон
    Задача хакатона научить вас работать в команде, правильно планировать ресурсы в условиях сжатых сроков и выбирать наиболее подходящее решение. Все студенты курса разбиваются на команды и решают практическую задачу по машинному обучению в течение 10 часов. Команды соревнуются между собой по заявленной метрике качества.
  2. Хакатон проходит в выходной.
  • Курсовой проект
  • Результатом обучения станет курсовой проект, а главное требование к нему – готовое MVP.
  • В течение курса студенты разбиваются на группы по 2-3 человека и выбирают тему курсового проекта. Последние 3 недели курса команды самостоятельно работают над проектом. На последнем занятии группа и преподаватели собираются на защиту и обсуждение проектов.

Чему вы научитесь:

  • Работе с данными
    Вы освоите полный цикл работы с данными для решения прикладных задач: выгрузку, обработку, анализ и интерпретацию результатов.
  • Программированию
    С помощью языка Python вы сможете самостоятельно обрабатывать и анализировать данные для решения прикладных задач и получать наглядные результаты в текстовом или графическом виде.
  • Математическим расчетам
    Вы получите фундаментальные знания в области линейной алгебры, теории вероятностей, статистики, математического анализа и методов оптимизации. Научим всему, что нужно для эффективного анализа данных.
  • Методам машинного обучения
    Расскажем, что такое машинное обучение и какие типы задач можно решать с его помощью. Покажем, какие ошибки присущи каждому типу задач, и научим их избегать.

Программа курса:

  1. Анализ данных с помощью Python
  • Синтаксис Python: типы данных, операции, функции, циклы и списки
  • Чтение, запись и изменение данных из файлов
  • Базовые библиотеки для работы с данными и машинного обучения
  • Вывод результатов анализа в текстовом и графическом виде
  1. Математика для Data Science
  • Общий курс математики для анализа данных
  • Математический анализ и линейная алгебра
  • Базовые принципы статистики и теории вероятностей
  • Методы оптимизации.
  1. Data Science
  • Практическое применение машинного обучения
  • Типы задач, алгоритмы и методы их решения
  • Способы машинного обучения: обучение с учителем
  • Способы машинного обучения: обучение без учителя.
  1. Решение проблем при работе с данными
  • Борьба с переобучением и недообучением
  • Оценка качества алгоритма и метрики качества
  • Несбалансированные выборки и отбор признаков
  • Визуализация и интерпретация данных.

Удостоверение о повышении квалификации установленного образца в соответствии с Федеральным законом об образовании, который котируется, в том числе, на территории СНГ.

Стоимость: нет информации

Для кого:
Для тех, кто хочет ставить задачи с помощью анализа данных, предлагать решения и оценивать их эффективность не только в синтетическом эксперименте, но и в реальных условиях.

Чему мы учим:
Статистике, машинному обучению и работе с разными типами данных.

Где применять эти знания:
Данные лежат в основе большинства современных сервисов и продуктов: от приложений по предсказанию погоды до беспилотных автомобилей. Data Scientist проводит эксперименты, строит метрики, умеет оптимизировать работу сервисов и понимает, где находятся их точки роста.

Программа

В течение семестра каждый учащийся должен успешно пройти как минимум три курса. Например, если в основной программе их два, то необходимо выбрать какой-нибудь из спецкурсов.

Знания проверяются в первую очередь с помощью домашних заданий — экзамены и контрольные проводятся только по некоторым предметам.

  1. Алгоритмы и структуры данных, часть 1
  2. Язык Python
  3. Машинное обучение, часть 1
  4. Основы статистики в машинном обучении
  5. Машинное обучение, часть 2
  6. Автоматическая обработка текстов
  7. Компьютерное зрение
  8. Рекомендуемые спецкурсы
  9. Глубинное обучение
  10. Обучение с подкреплением
  11. Self Driving Cars.

Чему вы научитесь?

  • Разбираться в основных понятиях и задачах Data Science
  • Использовать в работе современные методы машинного обучения
  • Применять ключевые концепции сбора, подготовки, исследования и визуализации данных
  • Обрабатывать и анализировать большие данные

Что включает курс?

  • 7 занятий — от теории к защите курсового проекта
  • Контроль знаний — практические работы и тесты
  • Сертификат об окончании
  • Опыт работы в команде
  • Интерактивный личный кабинет с доступом к материалам курса

Программа курса

  1. ВВЕДЕНИЕ В DATA SCIENCE И MACHINE LEARNING
  • Базовые понятия Big Data, Business Intelligence, Data Mining, Data Science, Machine Learning, Artificial Intelligence
  • История развития Data Science, современные перспективы
  • Кто такой Data Scientist, навыки. Вопросы на собеседовании.
  • Обзор процесса Data Science проекта
  • Сценарии использования и применения ML в современном мире
  • Обзор успешных проектов по Big Data и Machine Learning
  1. DATA SCIENCE PROCESS AND FRAMEWORKS
  • Планирование и подготовка работы
  • Исторический обзор методологий ведения Data Science решений
  • Детальный обзор современного Data Science процесса и его этапов
  • Команда и роли специалистов в проектах Data Science
  • Обзор популярных фреймворков и инструментов для Data Science решений
  • Workshop 1: Этап Business Understanding
  • Основы работы с системой контроля версий
  1. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ
  • Загрузка исходных данных для анализа в систему (ETL)
  • Data cleansing and transformation
  • Data Sampling and Quantization
  • Workshop 2: Подготовка данных для проекта
  • Подходы и методики для визуализации данных
  • Практика: Визуализация данных с помощью Power BI и R
  1. ПРОГНОЗИРОВАНИЕ И КЛАССИФИКАЦИЯ
  • Теоретический обзор проблемы и основных методов
  • Введение в искусственные нейронные сети для решения различных задач
  • Процесс создания реальных программных моделей для прогнозирования и классификации
  • Оценка точности обученных моделей, выбор лучшей
  • Workshop 3: Создание моделей прогнозирования и классификации
  1. КЛАСТЕРИЗАЦИЯ И РЕКОМЕНДАЦИОННЫЕ АЛГОРИТМЫ
  • Теоретический обзор проблемы и основных методов
  • Процесс создания реальных программных моделей для кластеризации, рекомендационных алгоритмов
  • Оценка точности обученных моделей, выбор лучшей
  • Введение в обработку естественного языка
  • Workshop 4: Создание моделей кластеризации и рекомендационных моделей
  1. ИМПЛЕМЕНТАЦИЯ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ
  • Временные ряды и прогнозирование событий
  • Имплементация моделей машинного обучения для дальнейшего использования
  • Обсуждение результатов выполнения домашних заданий
  • Примеры архитектур полноценного проекта
  • Workshop 5: Имплементация моделей машинного обучения
  • Подведение итогов курса, презентация проектов
  • Рекомендуемые материалы и шаги для дальнейшего изучения

Документы об окончании курса:

Сертификат Учебного центра Softline об окончании курса и справка об обучении установленного образца.

Data Science сегодня — это одно из самых востребованных направлений подготовки в бизнес-аналитике. В основе data science лежит работа с большими данными (Big Data).

Данный курс специально разработан для знакомства с основными технологиями и подходами анализа данных.

На первом уровне курса подготовки Вы научитесь:

  • Основам Big Data и Data Science.
  • Основам работы с SQL — самым популярным языком структурированных запросов.
  • Как использовать язык программирования Python для анализа данных.
  • Как работать с данными, основы визуализации и описательного анализа.
  • Разовьете пространственное, статистическое и функциональное мышление.

Программа курса:

  1. Введение в data science
  • Введение в Big Data и Data science.
  • “Разумная” постановка и приемка задач.
  • Data science в различных секторах экономики.
  • Необходимые навыки для работы с Big Data и Data science.
  • Данные и их источники – характеристики, полнота, взаимная корреляция, причинно-следственные связи, признаки искажения.
  • Типы данных. Базы данных. Способы хранения данных.
  • Математические приемы, используемые при работе с данными: матричные операции, введение в статистику и проверку гипотез.
  1. Основы SQL
  • SQL – язык структурированных запросов.
  • Общий подход.
  • Базовая концепция, фильтрация, функции.
  • Функционал PgAdmin.
  • Подзапросы, Join, Табличные операции.
  1. Python для анализа данных
  • Введение в язык программирования Python.
  • Функционал Google Colaboratory, основные возможности.
  • Язык программирования – Python.
  • Основные функции.
  • Базовые конструкции и структуры.
  • Стандартные функции языка.
  • Логические выражения.
  • Условные операторы.
  • Списки, словари, кортежи.
  • Циклы и условия.
  • Функции и классы.
  • Решение практических задач с использованием Python
  1. Работа с данными
  • Библиотека NumPy, типы данных, массивы и операции с ними.
  • Матричные операции, семплирование, чтение файлов.
  • Библиотека SciPy. Научные вычисления. Работа с данными. Тестирование данных.
  • Библиотека Pandas, загрузка и запись данных, срезы данных, мультииндексация, groupby, datetime, статистические функции.
  1. Визуализация
  • Библиотека Matplotlib, варианты отрисовки графиков и изображений.
  • Библиотека Seaborn, визуализация парных взаимосвязей, heatmap, диаграммы.
  • Библиотека Plotly. Продвинутая визуализация. Динамические графики.
  • Библиотека Dash. Обзор фреймворка для создания дэшбордов (аналитические BI инструменты).
  1. Описательный анализ
  • Pipeline описательного анализа от загрузки датасета, до извлечения полезных метрик и агрегирование.
  • Совместное решение бизнес-задачи с использованием ранее освоенных инструментов.
Стоимость: 36 000 ₽ — 60 000 ₽

Программы обучения подходят как опытным специалистам, так и начинающим. Все курсы по аналитике больших данных и машинному обучению, предлагаемые в нашем учебном центре, постоянно обновляются с учетом современных трендов науки о данных и прикладных бизнес-кейсов.

РАСПИСАНИЕ КУРСОВ DATA SCIENCE и MACHINE LEARNING

  • Подготовка данных для Data Mining на Python
  • Машинное обучение на Python
  • Визуализация данных на языке Python
  • Нейронные сети на Python
  • NLP с Python
  • Computer vision на Python.

Программа курса

  • Python для Data Science
    введение в программирование на python
  • Анализ данных на Data Science
    Анализ данных в Pandas и Numpy Визуализация, очистка данных и feature engineering
  • Основы машинного обучения
    Введение в машинное обучение, предобработка данных, Основные модели машинного обучения
  • Получение сертификата и трудоустройство
    Успешно окончившим курсы, гарантируем помощь в поисках работы.

В рамках это практического курсы мы заложим основу работы с данными с помощью языка Python и рассмотрим реализацию алгоритмов машинного обучения для решения типичных задач специалиста data scientist.

  1. Data Science & Python (3 занятия)

1.1. Введение в Python

  • История возникновения Python
  • Преимущества и недостатки
  • Синтаксис языка
  • Типы данных
  • Функции
  • ООП — объектно ориентированное программирование
  • Pythonic идиомы
  • Мультипоточность

1.2. Инструменты. Подготовка данных

  • IPython + JupyterHub
  • Работа с файлами
  • Регулярные выражения
  • Парсинг текстов (beautiful soup, nltk, и др)
  • Другие форматы — JSON, XML
  • Параллельная обработка

1.3. Работа с данными

  • Pandas
  • Matplotlib/Ggplot
  • Sklearn
  • Numpy, Scipy
  1. Machine learning (5 занятий)

2.1. Введение в машинное обучение

  • Повторение необходимых элементов теории вероятностей и линейной алгебры
  • Виды обучения и виды типичных задач
  • Когда нужно и когда не нужно машинное обучение

2.2. Линейные модели для классификации и регрессии

  • Градиентный спуск, целевые функции для обучения моделей
  • Хэширование признаков (hashing trick)
  • Квадратичные и кубические признаки
  • Практика: линейные модели в sklearn, vowpal wabbit

2.3. Непараметрические модели: метод ближайшего соседа и метод опорных векторов (SVM); Обучение без учителя (unsupervised learning): кластеризация и понижение размерности

  • Метод ближайшего соседа
  • Метод опорных векторов (SVM)
  • Иерархическая кластеризация и алгоритм k-means
  • Понижение размерности: алгоритмы MDS и PCA
  • Практика: kNN, SVM, k-means, PCA в sklearn.

2.4. Обучение деревьев классификации и регрессии (CART)

  • Энтропия и алгоритм ID3
  • Бустинг и бэггинг для построения ансамблей
  • Практика: random forest и gradient boosting в sklearn, C5.0

2.5. Нейронные сети (deep learning)

  • Композиционность и обучение представлений (representation learning)
  • Градиентный спуск, дифференцирование сложных функций
  • Типичная структура сети, целевые функции и используемые слои
  • Свёрточные нейронные сети
  • Практика: сверточные нейронные сети в keras

Практические занятия

  • Каждое занятие ориентированно на практическое применение Python для анализа данных, вас также ждет много практики и домашних заданий по машинному обучению.

Практический курс по Data Science: от основ Python, NumPy, SciPy, pandas до работы с нейронными сетями.

Научим структурировать и анализировать большой объём данных, прогнозировать события и находить неочевидные закономерности с помощью машинного обучения, составлять выводы и тестировать гипотезы.

Цель курса — профессия Junior Data Scientist.

Для кого этот курс:

  • Новичкам в Data Science
    С нуля получите все знания и навыки, которые необходимы для работы Junior Data Scientist
  • Аналитикам
    Вы научитесь извлекать максимум из больших массивов данных для быстрой проверки гипотез и построения прогнозов.

Вы научитесь:

  • Основам Python-программирования
  • Построению моделей машинного обучения
  • Работать с библиотекой NumPy
  • Работать с библиотекой pandas
  • Визуализировать данных с помощью matplotlib
  • Работать с базами данных и SQL
  • Использовать математику для обработки данных
  • Работать с нейронными сетями
  • Использовать machine learning в работе
  • Проводить A/B-тестирования.

Программа курса

  1. Основы Python
  • Основы Python. Настройка IDE. Базовый синтаксис
  • Базовые типы данных и циклы
  • Функции и классы
  • Продвинутые типы данных: массивы, множества, словари
  • Python для анализа данных: numpy и scipy
  • Python для анализа данных: pandas
  • Лабораторная работа по Python
  • Основы линейной алгебры и теории множеств и их реализация в Python
  • Методы математической оптимизации и их реализация в Python
  • Основы описательной статистики и их реализация в Python
  • Статистический анализ данных и их реализация в Python
  1. Библиотеки для анализа данных
  • Библиотека NumPy: методы анализа массивов
  • Библиотека NumPy: способы преобразования массивов
  • Библиотека pandas: индексация и выбор данных
  • Библиотека pandas: применение функций, группировка, сортировка
  • Визуализация данных с помощью matplotlib
  1. База данных и SQL
  • Введение в базы данных: необходимость, принципы работы
  • Основы работы с базами данных на декларативном языке SQL
  • Альтернативные виды баз данных и их различия
  • Современные возможности баз данных
  • Принципы работы с разными конкретными БД
  • Основные библиотеки для подключения к БД из Python
  1. Математическая статистика и теория вероятностей
  • Математика для Data Science
  • Дискретные и непрерывные случайные величины
  • Центральные предельные теоремы и закон больших чисел
  • Производная. Векторы. Матрицы
  • Случайные события. Условная вероятность. Формула Байеса. Независимые испытания
  • Дискретные случайные величины. Закон распределения вероятностей. Биномиальный закон распределения. Распределение Пуассона
  • Описательная статистика. Качественные и количественные характеристики популяции
  • Графическое представление данных
  • Непрерывные случайные величины. Функция распределения и плотность распределения вероятностей. Равномерное и нормальное распределение. Центральная предельная теорема
  • Проверка статистических гипотез.
  • Доверительные интервалы.
  • Взаимосвязь величин. Параметрические и непараметрические показатели корреляции Корреляционный анализ
  • Многомерный статистический анализ. Линейная регрессия
  • Дисперсионный анализ. Логистическая регрессия
  1. Машинное обучение
  • Основные концепции Machine Learning
  • Жизненный цикл Machine Learning-проекта
  • Регрессия: метрики качества, преобразование входных данных
  • Регрессия: регуляризация и градиентный спуск
  • Классификация: kNN, наивный байесовский классификатор, деревья решений
  • Классификация: метрики качества классификации и многоклассовая классификация
  • Кластеризация
  • Дополнительные техники: понижение размерности. Бустинг и стекинг
  1. Нейронные сети
  • Обработка временных рядов с помощью нейросетей
  • Computer vision
  1. A/B-тестирование
  • A/B-тестирование: объем выборки и построение доверительных интервалов
  • A/B-тестирование: статистические гипотезы и алгоритмы их проверки
  1. Практика по работе с данными

Курс для тех, кто не хочет становиться Data Scientist-ом, но хочет разобраться:

  • Кто такие Data Scientist-ы, откуда они берутся, что делают в проектах и как их нанимать
  • Как работает Data scientist – на примере реальных задач из практики
  • Какие методологии применимы к Data science и Machine learning проектам
  • Как определять возможности использования машинного обучения в вашей компании.

После курса вы сможете:

  • Управлять проектами по Data Science и Machine Learning, эффективно ставить задачи и KPI и принимать работы
  • Говорить с Data scientist-ами «на одном языке» и грамотно оценивать результаты их работы
  • Стать лидерами и осознанными участниками Цифровой трансформации в компании.

В чем будем разбираться:

  • Модуль 1. Введение
  • Модуль 2. Сбор и исследование данных
  • Модуль 3. Подготовка данных
  • Модуль 4. Классические модели
  • Модуль 5. Оценка модели
  • Модуль 6. Ансамбли и нейросети
  • Модуль 7. Data science проект.

Обучение Data Science/Machine Learning — это современные методы машинного обучения и практика работы с большими данными. Ты изучишь основы науки о данных и машинного обучения, научишься обрабатывать и анализировать большие данные, а также узнаешь, как работать с ключевыми концепциями сбора, подготовки и визуализации данных.

На курсе ты научишься:

  • Разбираться в основных понятиях и задачах Data Science
  • Использовать в работе современные методы машинного обучения
  • Применять ключевые концепции сбора, подготовки, исследования и визуализации данных
  • Обрабатывать и анализировать большие данные.

Data Science/Machine Learning: обучение по этапам

  1. ВВЕДЕНИЕ В DATA SCIENCE И MACHINE LEARNING
  • Базовые понятия Big Data, Business Intelligence, Data Mining, Data Science, Machine Learning, Artificial Intelligence
  • История развития Data Science, современные перспективы
  • Кто такой Data Science-специалист и какими навыками он обладает. Вопросы на собеседовании
  • Обзор процесса Data Science проекта
  • Сценарии использования и применения ML в современном мире
  • Обзор успешных проектов по Big Data и Machine Learning
  1. DATA SCIENCE PROCESS AND FRAMEWORKS
  • Планирование и подготовка работы
  • Исторический обзор методологий ведения Data Science решений
  • Детальный обзор современного Data Science процесса и его этапов
  • Команда и роли специалистов в проектах Data Science
  • Обзор популярных фреймворков и инструментов для Data Science решений
  • Workshop 1: Этап Business Understanding
  • Основы работы с системой контроля версий
  1. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ
  • Загрузка исходных данных для анализа в систему (ETL)
  • Data cleansing and transformation
  • Data Sampling and Quantization
  • Workshop 2: Подготовка данных для проекта
  • Подходы и методики для визуализации данных
  • Практика: Визуализация данных с помощью Power BI и R
  1. ПРОГНОЗИРОВАНИЕ И КЛАССИФИКАЦИЯ
  • Теоретический обзор проблемы и основных методов
  • Введение в искусственные нейронные сети для решения различных задач
  • Процесс создания реальных программных моделей для прогнозирования и классификации
  • Оценка точности обученных моделей, выбор лучшей
  • Workshop 3: Создание моделей прогнозирования и классификации
  1. КЛАСТЕРИЗАЦИЯ И РЕКОМЕНДАЦИОННЫЕ АЛГОРИТМЫ
  • Теоретический обзор проблемы и основных методов
  • Процесс создания реальных программных моделей для кластеризации, рекомендационных алгоритмов
  • Оценка точности обученных моделей, выбор лучшей
  • Введение в обработку естественного языка
  • Workshop 4: Создание моделей кластеризации и рекомендационных моделей
  1. ИМПЛЕМЕНТАЦИЯ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ
  • Временные ряды и прогнозирование событий
  • Имплементация моделей машинного обучения для дальнейшего использования
  • Обсуждение результатов выполнения домашних заданий
  • Примеры архитектур полноценного проекта
  • Workshop 5: Имплементация моделей машинного обучения
  • Подведение итогов курса, презентация проектов
  • Рекомендуемые материалы и шаги для дальнейшего изучения
  1. ЗАЩИТА КУРСОВОГО ПРОЕКТА.
Стоимость: 20 350 ₽ — 58 100 ₽

Для кого подойдет онлайн-курс:

  • Для желающих войти в IT
    Все, кому интересна тема машинного обучения (даже если нет опыта в IT)
  • Для программистов
    Кто нуждается в новых задачах, хочет сменить направление развития, найти лучшую работу и добиться новых успехов в IT.
  • Для BI
    Кто хочет решать новые, более сложные проблемы или оптимизировать существующие. Больше, чем просто работа в Excel.
  • Для менеджеров и директоров
    Которые хотят эффективно управлять командой, понимая возможности и проблемы машинного обучения.

Программа онлайн-курса

Модуль 1: Основы машинного обучения

  • признаки, целевую переменную, объекты
  • разработку функций, выбор функций, выбор модели
  • поработаешь с регрессией на практике
  • первое знакомство с поиском признаков
  • первое знакомство с кривой обучения

Модуль 2: Погружение в машинное обучение

  • познакомишься с библиотекой sklearn и с работой алгоритмов, такими как деревья решений (анг. decision trees), случайный лес (анг. random forest) и другие
  • поймешь почему так важна правильная проверка модели, например, перекрестная проверка (cross-validation) или другие
  • почему визуализация — Твой друг и Ты узнаешь простые советы, как это сделать

Модуль 3: Gradient Boosting

  • Познакомишься с семьей алгоритмов (Gradient) Boosting
  • Ознакомишься с некоторыми из лучших реализаций: CatBoost, XGBoost, LightGBM
  • Поработаешь с оптимизацией гиперпараметров прагматичным образом

Модуль 4: Feature Engineering

методы инженерии признаков

  • для непрерывных значений
  • для категориальных значений
  • для данных и прочего.
Стоимость: 4 500 ₽ / занятие

Программа обучения, рассчитанная на 4 месяца

  1. Изучение основ SQL и R
  2. Выбор проекта и получение данных
  3. Очистка и подготовка данных
  4. Разработка факторов моделирования — Feature Selection
  5. Разбор типов задач
  6. Разбор основного типа задачи проекта — линейные модели и регуляризация
  7. Разбор основного типа задачи проекта — метод «SVM»
  8. Разбор основного типа задачи проекта — методы нейронных сетей
  9. Разбор основного типа задачи проекта — методы деревьев решений: «CART» и «Random Forest»
  10. Разбор основного типа задачи проекта — методы деревьев решений: «Gradient Boosting» и «XGBoost»
  11. Разбор основного типа задачи проекта — вероятностные модели
  12. Кластерный анализ — метрические модели
  13. Ассоциативный анализ — модели на основе правил
  14. Текстовый анализ
  15. Дополнения к обучению моделей
  16. Визуализация данных и моделей — средней сложности и продвинутая
  17. Составление финального отчёта
  18. Построение дашборда для мониторинга и автоматической генерации отчётности.
Стоимость: бесплатно

Data scientist — очень перспективная специальность. Анализ данных и машинное обучение всё чаще используются в инновационном бизнесе, фундаментальной науке и прикладных исследованиях.

Для кого:

Слушателю нужна базовая математическая подготовка на уровне младших курсов технического вуза. Не страшно, если вы учились давно — преподаватели помогут освежить знания.

Программа специализации состоит из пяти курсов. Вы освоите работу с данными от и до — сбор, оценка, обработка, результаты.

Вы научитесь:

  • формулировать задачи анализа данных, относящиеся к разным классам машинного обучения;
  • использовать разные алгоритмы и классы моделей машинного обучения для решения прикладных задач;
  • с помощью статистических методов строить корректные выводы по полученным данным.

В программе обучение с учителем, обучение без учителя, решающие деревья, случайные леса, кросс-валидация и многое другое.

Программа заканчивается выполнением практического проекта — вы самостоятельно решите большую аналитическую задачу.

Насколько публикация полезна?

Нажмите на звезду, чтобы оценить!

Средняя оценка 4.9 / 5. Количество оценок: 107

Оценок пока нет. Поставьте оценку первым.

Автор статьи. Ответственный за актуальный контент, текст и редактуру сайта. Эксперт по выбору профессии, курсов и профессий с 2016 года. Делюсь личным практическим опытом.

Оцените автора
Блог Романа Семенцова
Добавить комментарий