В этом обзоре разберём ТОП онлайн-курсов Data Science. На курсах обучат анализу данных с нуля, дадут знания аналитика. Научат машинному обучению (Machine Learning), построению математических моделей, решению задач с помощью Python и профессии «Data Scientist», в подборке бесплатные и платные курсы для специалистов.
- 1 место. Курс «Профессия Data Scientist PRO» — Skillbox
- 2 место. Курс «Data Scientist: с нуля до middle» — Нетология
- 3 место.Курс «Факультет искусственного интеллекта» — GeekBrains
- Курс «Data Science» — SkillFactory
- Курс «Data Science» — OTUS
- Курс «Data Science: быстрый старт» — ProductStar
- Курс «Специалист по Data Science» — НИУ ВШЭ
- Курс «Data Science» — Центр компьютерного обучения «Специалист» при МГТУ им.Н.Э.Баумана
- Курс «Data Scientist – работа настоящего и будущего» — ISsoft Solutions
- Курс «Python для Data Science» — robot_dreams
- Курс «Как стать специалистом по Data Science» — АНО ДПО «ШАД»
- Курс «Основы Data Science» — ООО «Образовательный центр программирования и высоких технологий»
- Курс «DataGym» — ИП Ермаков П. Д.
- Курс «Data Science» — SF Education
- Курс «Data Science» — Школа анализа данных
- Курс «Data Science/Machine Learning Fundamentals» — ООО «СофтЛайнбел»
- Курс «Data Science. Уровень 1: Основные технологии. Python для анализа данных» — Московский Государственный Технический Университет им. Н.Э. Баумана
- Курс «Data Science и Machine Learning» — bigdataschool
- Курс «Data Science » — ABLE
- Курс «Data Science / Python / Machine learning» — Digital Technologies School
- Курс «Data Science» — Бруноям
- Курс «Data Science для не data scientist-ов» — CROC Education solutions
- Курс «Data Science / Machine Learning Fundamentals» — ITEA
- Курс «Data Science» — DataWorkshop
- Курс «Data Science» — ООО «ЭйДжей ТехФин Групп»
- Курс «Машинное обучение и анализ данных» — АНО ДПО «ШАД»
- Три специализации на выбор
- Проекты на основе реальных задач
- Трудоустройство во время учёбы
- Преподаватели эксперты из сферы Data Science.
Специалисты по Data Science работают с Big Data, выдвигают гипотезы и проверяют их, помогают бизнесу принимать решения на основе анализа данных.
Они создают модели машинного обучения, тренируют нейросети для работы с текстом, видео или изображениями, строят поисковые и рекомендательные системы, разворачивают и поддерживают инфраструктуру для автоматизации работы с данными.
Кому подойдёт этот курс:
- Новичкам
С нуля освоите Python, SQL, научитесь собирать и анализировать данные, получите необходимый теоретический минимум по математике, теории вероятности и статистике. Знания закрепите на практике — решите задачи на основе реальных кейсов и добавите проекты в портфолио. Устроитесь на стажировку по выбранной специальности уже во время обучения. - Программистам
Подтянете математику, статистику, аналитическое и алгоритмическое мышление, научитесь выявлять потребности бизнеса. Получите опыт работы с моделями машинного обучения, будете применять Python для решения задач с данными. Пройдёте процесс от сбора данных до деплоя модели. - Начинающим аналитикам
Вы научитесь выдвигать гипотезы и делать выводы на основе данных. Сможете писать эффективный код на Python, превращать сырые данные в полезную информацию для компании, понимать математику на основе статистики, обучать машины и прогнозировать результаты. Отшлифуете знания, увеличите скорость своей работы и добьётесь повышения.
Кем вы станете после курса?
Вариант 1. Специалист по Machine Learning
Будете анализировать большие объёмы информации, создавать модели для прогнозирования в бизнесе, медицине, промышленности. Обучать нейросети, создавать аналитические системы и рекомендательные сервисы на основе алгоритмов машинного обучения. Продолжите профессиональное развитие в сфере обработки естественного языка или Computer Vision.
Вариант 2. Дата-инженер
Будете разворачивать программную инфраструктуру для организации сбора, обработки и хранения данных. Вам предстоит решать сложные, но интересные задачи: создавать отказоустойчивые системы для работы с Big Data, писать эффективный код на Python и SQL-запросы, автоматизировать рутину, «общаться» с базами данных, работать с облачными платформами.
Вариант 3. Аналитик данных
Будете помогать бизнесу принимать верные решения на основе данных. Собирать информацию и анализировать её, находить аномалии в метриках. На основе исследований будете выявлять закономерности, строить гипотезы и проверять их жизнеспособность с помощью моделирования. Научитесь визуализировать результаты работы в виде графиков и диаграмм.
Программа
Вас ждут 15 курсов с различным уровнем сложности, онлайн-лекции и практика.
3 специализации, 3 бонусных курса
Первая ступень
- Введение в Data Science
- Познакомитесь с основными направлениями Data Science, узнаете, какие задачи решают дата-аналитики, дата-инженеры и специалисты по машинному обучению.
- Пройдёте все этапы работы с данными. Научитесь выявлять проблемы, собирать бизнес-требования. Будете выгружать данные из различных источников, проводить разведочный анализ и готовить датасет к дальнейшему использованию. Обучите и внедрите готовую ML-модель, попробуете себя в роли продуктового и маркетингового аналитика. Узнаете, как формулировать и проверять гипотезы. Освоите базовые инструменты для работы: Python, SQL, Excel, Power Bi, Airflow.
- Основы статистики и теории вероятностей
- Поймёте принципы работы со случайными величинами и событиями. Познакомитесь с некоторыми видами распределений и статистическими тестами, которые пригодятся при составлении моделей и проверке гипотез.
- Основы математики для Data Science
- Получите базовые знания по математике для работы с машинным обучением. Поймёте, что такое аппроксимация, интерполяция, функции, регрессии, матрицы и вектора. Научитесь работать с математическими сущностями в Python-библиотеке SymPy.
Специализации на выбор
- Machine Learning
- Machine Learning. Junior. Познакомитесь с алгоритмами машинного обучения для решения задач регрессии, классификации и кластеризации. Построите и обучите свою первую нейронную сеть. Научитесь подбирать параметры модели, оценивать качество и улучшать её, а также выводить результат в Production.
- Machine Learning. Advanced. Освоите алгоритмы для построения рекомендательных систем и прогнозирования временных рядов. Научитесь применять ансамблевые методы, стекинг, бустинг, а также лучшие практики кросс-валидации, мониторинга и пайплайна ML-разработки.
- Deep Learning. Научитесь работать с нейросетями: подробно узнаете, как они устроены, будете обучать модели, строить и тестировать архитектуры, передавать данные в нейросеть и настраивать параметры.
- Трек 1. NLP. Научитесь применять алгоритмы машинного обучения и нейронные сети для обработки естественного языка. Узнаете, как анализировать тональность текстов, классифицировать их, распознавать речь.
- Трек 2. Computer Vision. С помощью алгоритмов машинного обучения и нейросетей будете распознавать объекты, лица и эмоции, классифицировать и сегментировать изображения. Научитесь применять и адаптировать готовые модели CV для своих целей.
- Data Engineer
- Data Engineer. Junior. Будете собирать сложные наборы данных, подготавливать витрины данных, разворачивать DS-проекты с нуля, тестировать код, выстраивать пайплайны для работы с данными и работать в команде.
- Data Engineer. Advanced. Научитесь пользоваться типовыми средствами мониторинга, настраивать алерты. Будете выбирать архитектуру для хранения данных и работать со сложными типами архитектуры хранилищ. Выстраивать инфраструктуру и пайплайны для обучения ML-моделей.
- Data Analyst
- Data Analyst. Junior. Познакомитесь с базовыми методами анализа на примере анализа продаж. Пройдёте основы маркетинговой, BI и продуктовой аналитики. Прокачаете навыки работы в Excel, Python и Power BI. Будете уметь формулировать и тестировать гипотезы и презентовать результаты заказчику.
- Трек 1. Product Analytics. Будете обрабатывать данные, исследовать взаимодействие пользователей с продуктом, интерпретировать собранную информацию. Полученные результаты помогут решить задачи бизнеса.
- Трек 2. Marketing Analytics. Узнаете, как настраивать веб- и сквозную аналитику, создавать воронки продаж, анализировать поведение пользователей на сайте.
- Трек 3. BI Analytics. Научитесь создавать хранилища данных, проектировать базы данных на языке SQL и работать с таблицами на продвинутом уровне. Будете решать бизнес-задачи с помощью аналитики, чистить данные, правильно их хранить и визуализировать.
Дипломные проекты
- Machine Learning
- Соревнование в Kaggle.
- Командная работа в проекте.
- Data Engineer
- Индивидуальный проект.
- Хакатон.
- Data Analyst
- Командный проект.
- Индивидуальное исследование.
Бонусные курсы
- Карьера разработчика: трудоустройство и развитие
Узнаете, как выбрать подходящую вакансию, подготовиться к собеседованию и вести переговоры с работодателем. Сможете быстрее получить должность, которая соответствует вашим ожиданиям и умениям. - Система контроля версий Git
Научитесь версионировать изменения в коде, создавать и управлять репозиториями, ветками, разрешать конфликты версий. Узнаете полезные правила работы с Git. - Английский для IT-специалистов
Получите языковые навыки, которые помогут пройти собеседование в иностранную компанию и комфортно общаться в смешанных командах.
Вы научитесь не только работать с аналитикой, нейронными сетями, Big Data и помогать компаниям и продуктам расти с помощью технологий, но и освоите ключевые «мягкие навыки»: коммуникацию в команде, целеполагание и эмоциональный интеллект.
Обучение на курсе поможет вам:
- Перейти в профессию с высоким окладом, которая не устареет через 10 лет
Положите начало своему развитию в востребованной во всех отраслях бизнеса профессии - Освоить ключевые технологии и опередить запрос рынка
Станете востребованным специалистом уже в процессе обучения и не растеряете накопленные знания и навыки - Прожить опыт 2-3 лет самостоятельного изучения сферы Data Science
Получите знания в концентрированном формате и с обратной связью от экспертов-практиков ведущих компаний.
Чему вы научитесь:
- Работать с SQL
Научитесь писать запросы, работать с данными в базе без переноса в таблицы, загружать данные и сохранять историю, работать с разными форматами файлов - Использовать Python и библиотеки
Автоматизировать работу с большими массивами, получать данные из внешних источников, обосновывать выводы, полученные при анализе данных - Проверять данные и определять проблемы
Обрабатывать текстовые данные, чтобы передавать их в алгоритмы машинного обучения, генерировать новые значимые признаки - Обучать многослойные нейронные сети и строить модели машинного обучения
Быстро строить модели и проверять гипотезы, строить рекомендательную систему и нейронную сеть, выявлять скрытые аномалии в данных - Применять математику в алгоритмах
Освоите необходимый математический аппарат для продуктивной работы с моделями данных, машинным обучением и нейронными сетями - Лидировать Data-проекты, работать в команде и находить общий язык с заказчиком
Структурировать результаты, формулировать гипотезы, выявлять потребности, находить области применения машинного обучения.
Программа курса:
1 ступень. Погружение
В первом модуле вы разберётесь, что такое аналитическое мышление, и узнаете, откуда берутся данные. Научитесь определять ключевые продуктовые метрики и создавать дашборды.
- Аналитическое мышление
Научитесь думать, как аналитик и формулировать гипотезы для проверки. Поймёте, что аналитика строится вокруг данных. Познакомитесь с базовым инструментом аналитика и сможете проводить в нём простой анализ данных. - Основы визуализации данных
Поймёте, как создавать наглядные интерактивные дашборды для анализа бизнес-метрик в онлайн-режиме. Научитесь определять ключевые продуктовые метрики и создавать дашборды.
2 ступень. SQL, Python и Big Data
Вы получите ключевые навыки специалиста в Data Science для старта в профессии и сможете искать стажировку в новой сфере уже после прохождения первой ступени.
- SQL и получение данных
В идеальном мире data scientist получает готовые данные, чтобы строить модели, но мир неидеален. Вы научитесь с помощью SQL получать данные из БД, фильтровать, агрегировать, а также импортировать и экспортировать. - Аналитика больших данных
Узнаете, как собрать и управлять командой Big Data-проекта. Освоите подход CRISP-DM, определите компетенции и состав команды. Определите, сколько данных вам нужно для нахождения инсайтов. Найдёте задачи под Big Data в своей компании. Поймёте, как и по каким правилам хранить данные. Сможете обосновывать влияние на сбор данных, мониторинг и отчётность. - Python для анализа данных
Вы научитесь пользоваться базовыми инструментами и подходами в Python, чтобы начать работать с данными. Повторите основы линейной алгебры, теории множеств, методов математической оптимизации, описательной статистики, статистического анализа данных, а также научитесь реализовывать это на языке Python. - Математика для анализа данных
Изучите основные операции с векторами, матричными операциями. Рассмотрите генетические алгоритмы, алгоритм дифференциальной эволюции. Узнаете, что такое математическое ожидание, дисперсия и моменты старших порядков. Изучите закон больших чисел.
3 ступень. Машинное обучение, Deep Learning и нейронные сети
Получите расширенные знания в профессии и научитесь работать с нейронным сетями, обучать модели и реализовывать NLP. Начнёте повышать свою квалификацию. После окончания этой ступени сможете претендовать на позицию Junior Data Scientist и совмещать учёбу с работой.
- Машинное обучение
Научитесь проверять данные на полноту, целостность, валидность, наличие шумов, ошибок и пропусков. Узнаете, как очищать данные с помощью NumPy и pandas, как сокращать размерности данных алгоритмами PCA, LDA, NMF. Научитесь строить деревья решений и модели логистической, линейной и полиномиальной регрессии. Узнаете, как использовать Random Forest в задачах классификации. - Рекомендательные системы
В этом и следующих блоках вы будете применять полученные знания в разных областях машинного обучения. Во время этого блока научитесь строить персонализированные и неперсонализированные рекомендательные системы, а также комбинировать их. - Временные ряды
Вы изучите элементарные алгоритмы обработки временных рядов, модели ARIMA и GARCH, прогнозирование значений на их основе. Узнаете, что такое марковские случайные процессы и марковские модели для временных рядов. - Нейронные сети
Научитесь строить простые полносвязанные сети уровня LeNet и AlexNet и экспериментировать с их обучением. Получите теоретическую и практическую базу для использования НС в блоках CV и NLP. - Компьютерное зрение
Вы освоите основные техники машинного зрения — извлечение признаков, поиск по картинкам, сегментирование, детекция объектов. - Обработка естественного языка
Вы освоите морфологический и синтаксический анализ, дистрибутивную семантику и информационный поиск, научитесь снижать размерность в векторной модели, классифицировать, извлекать информацию и генерировать тексты. - Deep Learning
Научитесь работать с многомерными свёртками, овладеете конкурентным преимуществом в задачах с использованием Beam-Search и Teacher Forcing, сможете реализовывать NLP с нуля. Сможете отличать дескриминатор от генератора и обучать генератор выбирать данные из линейной регрессии. Реализуете сеть генерации покемонов и обучите её.
4 ступень. Soft Skills и управление проектами
Сочетание хард- и софт-скиллов поможет вам быстрее расти по карьерной лестнице и добиваться больших результатов. Пройдя все ступени программы, вы сможете претендовать на должность Middle Data Scientist.
- Менеджмент data-проектов
Овладеете методологиями управления Data Science-проектами. Научитесь формулировать идеи и гипотезы, выбирать подходящие методы и алгоритмы, планировать решение задачи. - Эффективные коммуникации и эмоциональный интеллект
Научитесь понимать картину мира окружающих и на основе этого строить коммуникацию. Разберётесь, как управлять своими эмоциями, как реагировать на эмоции окружающих в процессе общения и развивать эмоциональный интеллект. Узнаете, как управлять эмоциями в переговорах. Научитесь заводить полезные связи и деловые знакомства и правильно презентовать себя. - Переговоры
Научитесь грамотно организовывать деловые встречи и эффективно проводить переговоры, добиваясь взаимовыгодных договорённостей. - Публичные выступления
Узнаете, как презентовать идею или отчёт. Научитесь получать удовольствие от выступлений и перестанете их бояться. - Финальный хакатон и Kaggle Competitions
В составе мини-команды за ограниченное время и на основе датасетов крупных игроков рынка вам придётся решать задачи по прогнозированию продаж или оптимизации производства, задействуя все знания и навыки, полученные на курсе.
Интеграция и использование machine learning решений в бизнесе, как правило, подразумевает командную игру, поэтому хакатон полезен ещё и как тренировка необходимых soft skills.
В рамках дипломного проекта вы сможете построить ML-модель для решения своих текущих профессиональных задач: это может быть система прогнозирования продаж, распознавание объектов на фото или видео, анализ временных рядов, анализ больших объёмов текста и т. д.
Вашу квалификацию подтвердит диплом о профессиональной переподготовке.
После учебы вы сможете работать по специальностям
- Data Scientist
- Data Analyst
- Machine Learning Engineer
- Computer Vision-специалист
- NLP-специалист.
У курса два формата обучения:
- живые вебинары;
- видеолекции в записи.
Программа обучения
Подготовительные курсы
Их необязательно проходить, но они помогут лучше погрузиться в обучение.
- Видеокурс: как учиться эффективно
- Основы математики
- Основы программирования
- Основы языка Python
- Базовый курс
I четверть. Программирование
Научитесь работать в Linux и создавать сервера в облачных сервисах AWS, проводить поиск информации и основные операции с файлами, выполнять мониторинг работы сервера. Научитесь использовать язык запросов SQL, создавать и оптимизировать сложные запросы. Освоите библиотеки языка Python, предназначенные для Data Science: Numpy, Pandas, Matplotlib, SciKit-Learn.
- Встреча декана со студентами
- Основы языка Python
- Рабочая станция
- Основы реляционных баз данных и MySQL
- Библиотеки Python для Data Science: Numpy, Matplotlib, Scikit-learn
II четверть. Сбор данных и статистическое исследование
Познакомитесь с теорией вероятностей и математической статистикой. Изучите методы проведения корреляционного, дисперсионного и регрессионного анализа. Научитесь работать с RESTful/SOAP-сервисами, форматами XML и JSON в Python, а также познакомитесь с особенностями открытых данных (OpenData).
- Библиотеки Python для Data Science: продолжение
- Методы сбора и обработки данных из сети Интернет
- Введение в математический анализ
- Теория вероятностей и математической статистике
III четверть. Математика для Data Scientist
Рассмотрите математические аспекты алгоритмов, применяемых в Data Science: линейная и логистическая регрессия, градиентный спуск, метод ближайших соседей, кластеризация, деревья решений, случайный лес, градиентный бустинг. Поймете, как устроены алгоритмы на уровне математики.
- Линейная алгебра
- Алгоритмы анализа данных
IV четверть. Машинное обучение
Освоите Python: от основ программирования до автоматизации, сбора, обработки, анализа и визуализации данных.
- Машинное обучение в бизнесе
- Рекомендательные системы
- Видеокурс от Мегафон + курсовой проект
V четверть. Нейронные сети
Научитесь решать задачи Machne Learning с данными из соцсетей, геоданными, применением графов, а также познакомитесь с нейронными сетями. На практике познакомитесь с фреймворками для разработки нейронных сетей: Tensorflow, Keras, PyTorch.
- Введение в нейронные сети
- Фреймворк PyTorch для разработки искусственных нейронных сетей.
VI четверть. Задачи искусственного интеллекта
Изучите продвинутые архитектуры сверточных нейронных сетей, обработку естественного языка и компьютерное зрение.
- Введение в обработку естественного языка
- Глубокое обучение в компьютерном зрении
II четверть. Специализация
Изучите фреймворк PyTorch и углубитесь в работу с компьютерным зрением и обработкой естественного языка.
- Введение в компьютерное зрение от Nvidia
- Фреймворк PyTorch для разработки искусственных нейронных сетей
- Введение в обработку естественного языка
Курсы вне четверти
Предметы с индивидуальным выбором даты старта
- Подготовка к поиску работы
- История развития искусственного интеллекта
- Алгоритмы и структуры данных на Python
- Введение в высшую математику
- Спортивный анализ данных. Платформа Kaggle
- Язык R для анализа данных
- Визуализация данных в Tableau
- Сверточные нейронные сети в компьютерном зрении.
Вы получите диплом о профессиональной переподготовке
Для работодателя это показатель, что вы разобрались в Data Science и самостоятельно выполнили проекты из вашего портфолио.
Курсы по Data Science:
- «Data Scientist»
Освойте самую востребованную профессию 2021 года. Начните свой путь в Data Science уже сейчас. - «Data Science»
Погрузитесь в Data Science — научитесь выявлять закономерности в данных и создавать модели для решения бизнес-задач в технологических компаниях - «Математика для Data Science»
Прокачайтесь в математике и статистике для Data Science — уверенно решайте нетиповые задачи и успешно проходите собеседования в IT-компании - «Data Engineering»
Освойте Data Engineering — научитесь собирать данные из разных источников, помогайте аналитикам строить гипотезы и принимать бизнес-решения - «Нейронные сети»
Освойте машинное обучение и программирование нейронных сетей — используйте силу Deep Learning для решения бизнес-задач - «Машинное обучение и нейронные сети»
Используйте возможности алгоритмов в нужной вам сфере — продажах, медицине, банковских услугах или на производстве.
Курсы:
- Spark Developer
- NoSQL
- DataOps Engineer
- Специализация «Системный аналитик»
- Математика для Data Science
- Machine Learning. Basic
- Специализация Machine Learning
- Data Engineer
- Machine Learning. Professional
- Machine Learning. Advanced
- Data Warehouse Analyst
- Промышленный ML на больших данных
- Компьютерное зрение
- Супер-практикум по использованию и настройке GIT
- Deep Learning
- Супер-интенсив «Tarantool»
- Анализ данных и машинное обучение в MATLAB.
На данный момент Data Scientist является одной из наиболее востребованных профессий, так как именно эти специалисты отвечают за систематизацию и структурирование больших данных.
Чему вы научитесь:
- Писать на Python
Выучите синтаксис одного из самых популярных языков программирования, сможете создавать и применять функции - Понимать особенности машинного обучения
Узнаете ключевые инструменты Machine Learning и научитесь их применять - Работать с рекомендательными системами
Изучите типы и задачи рекомендательных систем, а также сможете создавать собственные - Переносить проекты на Hadoop
Попрактикуемся в работе с Hadoop и разберем подход MapReduce.
Программа курса (12 блоков и воркшопов)
Блок 1: «Python, быстрый старт: типы данных, функции, классы, ошибки»
- Введение в Python
- Типы данных, функции, классы, ошибки
Блок 2: «Python, быстрый старт: строки, условия, циклы, списки и словари»
- Строки, условия, циклы
- Списки и словари в Python
Блок 3: «Библиотеки для анализа данных: Pandas»
- Пакеты, файлы, Pandas – начало
- Pandas – продолжение
Блок 4: «Библиотеки для анализа данных: визуализация»
- Библиотеки визуализации данных
- Практика
Блок 5: «Знакомство с машинным обучением»
- Задачи машинного обучения
- Ключевые инструменты Machine Learning и их применение
Блок 6: «Основные модели машинного обучения: линейная регрессии»
- Что такое модели машинного обучения?
- Линейная регрессия
- Практика
Блок 7: «Бинарная классификация»
- Алгоритм бинарной классификации данных
- Применение на задачах
Блок 8: «Валидация. Почему это важно»
- Проблема переобучения и недообучения
- Валидация на отложенной выборке
- KFold и Stratified KFold валидация
Блок 9: «Решающие деревья»
- Определение и процесс построения решающего дерева
- Принцип работы дерево с количественными и категориальными признаками
- Сравнение дерева решений с линейными моделями
Блок 10: «Feature Engineering, Feature Selection»
- Состав Feature Engineering
- Базовые подходы к созданию признаков
- Состав Feature Selection
- Разбор кейсов
Блок 11: «Предсказание оттока клиентов и прогноз продаж»
- Разбор кейса
- Практическая задача по предсказанию оттока пользователей
- Практика и применение алгоритмов
Блок 12: «Воркшоп: скоринг кредитного портфеля»
- Разбор кейса и нюансов
- Практическая задача.
Выпускники получают сертификат об успешном прохождении курса — что, вместе с дипломным проектом, будет хорошим аргументом при трудоустройстве.
«Специалист по Data Science» — это программа по анализу данных и машинному обучению, которая охватывает все разделы современного анализа данных, в том числе глубинное обучение и его применения.
Программа начинается с самых основ — изучения программирования и базовых разделов математики — и переходит к разделам по машинному обучению, прикладной статистике и обработке данных, работе с большими данными, глубинному обучению, его применениям к изображениям, текстам и сигналам. При разработке программы мы сделали акцент на практическую работу.
По итогам программы вы получите самые актуальные знания в одной из самых востребованных областей 21 века, проекты в портфолио и диплом о профессиональной переподготовке установленного НИУ ВШЭ образца.
Программа:
- Python для автоматизации и анализа данных
18 занятий - Математика для анализа данных
19 занятий - Прикладная статистика для машинного обучения
9 занятий - Алгоритмы и структуры данных
10 занятий - Машинное обучение
14 занятий - Промышленное машинное обучение на Spark
8 занятий - Глубинное обучение
10 занятий - Прикладные задачи анализа данных
10 занятий.
Data Science – это наука о данных, которая занимается сбором, представлением, обработкой и анализом данных в цифровой форме, а главное – помогает выделять из общего массива данных полезную информацию. Она связана с такими направлениями как Big Data, машинное обучение и анализ данных и еще целым рядом современных ИТ-направлений.
Специалисту, который занимается такой работой (Data Scientist), нужны знания и навыки сразу в нескольких областях:
- математика и статистика,
- программирование,
- машинное обучение,
- работа с базами данных,
- визуализация данных.
Чем занимается специалист Data Science?
Задачи специалиста по данным:
- находит скрытые закономерности и связи во время изучения данных;
- анализирует данные по необходимому критерию, который покажет эффективность создаваемой модели;
- визуализирует данные;
- программирует и тренирует модель машинного обучения;
- оценивает с коллегами модель с точки зрения экономики;
- выявляет богатые источники данных, присоединяется к ним с другими потенциально неполными источниками данных и очищает полученный набор;
- анализирует риски;
- анализирует внутренние процессы;
- занимается внедрением моделей в существующие инфраструктуры;
- дорабатывает модель и следит за процессами;
- предлагает новые направления для развития бизнеса клиента;
- занимается разработкой отчетов и прогнозированием;
- консультирует руководителей и менеджера по продукту, основываясь на полученных данных.
Soft skills для Data Scientist
- Ассоциативное мышление.
- Способность излагать свои мысли так, чтобы их понял другой человек.
- Любопытство для погружения в проблему и дальнейшей работы с гипотезами.
- Умение находить эффективные решения проблем.
- Внимательность.
- Умение работать в команде и находить подход к каждому.
- Умение задавать хорошие вопросы.
- Дотошность.
- Умение визуализировать данные.
После курса вы сможете:
- работать с разными типами и структурами данных
- использовать библиотеки NumPy, Pandas, Matplotlib, Seaborn, Plotly, Sweetviz, Pandas Profiling, SciPy, Scikit-learn, CatBoost и XGBoost
- строить продвинутые и интерактивные визуализации
- проводить Exploratory Data Analysis и находить взаимосвязи в данных
- заполнять пробелы в данных
- валидировать гипотезы и анализировать результаты А/В-тестирования
- решать задачи прогнозирования и классификации
- строить простые ML-модели
- начать путь в Data Science.
Программа курса
- Введение в Data Science. Знакомство с задачами и инструментами
Разберитесь, какие задачи входят в область Data Science. Освойте инструменты для интерактивной работы с Python [IPython, Jupyter Notebook и Google Collaboratory]. Ознакомьтесь с библиотекой NumPy и разберитесь в ее преимуществах перед обычными списками. Научитесь создавать массивы и выполнять базовые операции над ними в NumPy. - Линейная алгебра и статистика
Возобновите знания по линейной алгебре и статистике. Научитесь вызывать векторное умножение, поэлементное сложение OR вычитание и другие функции в NumPy. Научитесь вводить и выводить матрицы и массивы разной величины, находить std и mean, выводить гистограмму одномерного массива. - Работа с табличными данными
Узнайте, какие задачи Data Science помогает решить библиотека Pandas. Научитесь создавать, импортировать и экспортировать табличные данные в Pandas Dataframe, манипулировать данными, обновлять их значения по индексу. Узнайте, что делать, чтобы не перегружать оперативку. - Matplotlib и Seaborn. Визуализация данных
Разберите базовые типы визуализации [line chart, scatter plot, bar plot, histogram]. Постройте базовые визуализации с помощью Python в Matplotlib и Seaborn. Узнайте о трех способах визуализации данных из Pandas в Dataframe. - Продвинутые и интерактивные визуализации
Разберитесь в типах продвинутых визуализаций [heatmap, box plot, pair plot, cumulative plot]. Постройте базовую интерактивную визуализацию в Plotly. Научитесь быстро и удобно анализировать отсутствующие значения в наборе данных с помощью визуализации. - Exploratory Data Analysis и очистка данных
Научитесь быстро понимать структуру набора данных любого размера и решать проблему наличия выбросов и дубликатов в наборе данных. Проведите Exploratory Data Analysis (EDA) с помощью Pandas, а затем ― с помощью библиотек Sweetviz и Pandas Profiling. - Поиск и устранение отсутствующих значений
Научитесь выявлять отсутствующие значения в наборе данных, отделять случайно отсутствующие значения от значений, отсутствующих ввиду системной ошибки. Обучитесь нескольким техникам заполнения отсутствующих значений. - Статистический анализ данных
Ознакомьтесь с библиотекой SciPy. Научитесь генерировать случайные величины разных вероятностных распределений, проводить тесты нормальности и сравнивать распределения двух случайных величин. Изучите основы проверки статистических гипотез. Проведите статистический тест в SciPy и проанализируйте результаты А/В-тестирования. - Задача прогнозирования. Линейная регрессия
Подготовьте данные для задачи линейной регрессии. Ознакомьтесь с моделью многомерной линейной регрессии и библиотекой Scikit-learn. Постройте многомерную линейную регрессию с помощью NumPy и с помощью Scikit-learn. Научитесь оценивать качества линейной регрессии с помощью метрик MSE, RMSE, MAE. - Задача прогнозирования. Другие виды регрессий
Ознакомьтесь с моделями полиномиальной регрессии, гребневой регрессии, регрессии по методу LASSO и регрессии «эластичная сеть». Научитесь улучшать качество линейной регрессии с помощью регуляризации. Узнайте, что делать в случае высокого bias OR высокого variance модели. - Задача классификации. Логистическая регрессия
Ознакомьтесь с задачей бинарной классификации и моделью логистической регрессии. Обучите модель логистической регрессии для классификации данных и оцените ее качество. Научитесь оценивать качество модели мультиклассовой классификации. - Деревья принятия решений
Изучите принцип работы модели «Деревья принятия решений». Определите отличия этой модели от остальных. Обучите модель «Деревья принятия решений» для решения задач регрессии и классификации. - Ансамбли моделей
Изучите базовые техники построения ансамблей. Научитесь строить и обучать разные типы ансамблей моделей. Определите, какой способ ансамблирования необходимо использовать в случае high bias, а какой ― в случае high variance. - Библиотеки CatBoost и XGBoost
Ознакомьтесь с библиотеками CatBoost и XGBoost. Узнайте, какие задачи они решают и чем отличаются друг от друга. Научитесь улучшать XGBoost-модель за счет оптимальных гиперпараметров модели. - Кластерный анализ данных
Узнайте, как обучить модель без учителя с помощью кластеризации. Изучите теорию и разберите на примерах, как работают методы кластеризации в моделях K-Means, DBSCAN и Agglomerative Clustering. Найдите группы похожих экземпляров в массиве данных с помощью кластеризации. - Отбор признаков и уменьшение соразмерности данных
Изучите простые способы выбора признаков. Выберите признаки так, чтобы оставить только самые значимые для модели. Научитесь применять методы уменьшения соразмерности данных для ML-модели [Singular Value Decomposition, Principal Component Analysis, Linear Discriminant Analysis].
Специалист по Data Science структурирует и анализирует большие объёмы данных, применяет машинное обучение для предсказания событий и обнаружения неочевидных закономерностей. Помогает создавать и улучшать продукты в бизнесе, промышленности и науке. Мы хотим научить вас основным инструментам этой профессии: Python и его библиотекам, в том числе Scikit-Learn и XGBoost, Jupyter Notebook, SQL.
Программа обучения:
- Основы Python и анализа данных: бесплатный вводный курс
Познакомитесь с языком программирования Python, библиотекой Pandas, а также средой программирования Jupyter. Узнаете основные концепции анализа данных и поймёте, чем занимаются аналитики и специалисты по Data Science. - Предобработка данных
Научитесь очищать данные от выбросов, пропусков и дубликатов, а также преобразовывать разные форматы данных. - Исследовательский анализ данных
Изучите основы теории вероятностей и статистики. Примените их для исследования основных свойств данных, поиска закономерностей, распределений и аномалий. Познакомитесь с библиотеками SciPy и Matplotlib. Отрисуете диаграммы, поупражняетесь в анализе графиков. - Статистический анализ данных
Научитесь анализировать взаимосвязи в данных методами статистики. Узнаете, что такое статистическая значимость, гипотезы и доверительные интервалы. - Сборный проект -1
Научитесь предварительному исследованию данных, сформулируете и проверите гипотезы. - Введение в машинное обучение
Освоите основные концепции машинного обучения. Познакомитесь с библиотекой Scikit-Learn и примените её для создания первого проекта с машинным обучением. - Обучение с учителем (классификация и регрессия)
Углубитесь в самую востребованную область машинного обучения — обучение с учителем. Узнаете, как обращаться с несбалансированными данными. - Машинное обучение в бизнесе
Примените свои знания о машинном обучении к задачам бизнеса. Узнаете, что такое бизнес-метрики, KPI и A/B-тестирование. - Сборный проект -2
Подготовите данные для машинного обучения. С помощью модели оцените её качество. - Линейная алгебра
Заглянете внутрь нескольких изученных ранее алгоритмов и лучше поймёте, как их применять. На практике освоите с нуля главные концепции линейной алгебры: линейные пространства, линейные операторы, евклидовы пространства. - Численные методы
Разберёте ряд алгоритмов и приспособите их к решению практических задач с использованием численных методов. Разберётесь, как обучаются нейронные сети. Для этого вы освоите приближённые вычисления, оценку сложности алгоритма, градиентный спуск и бустинг. - Временные ряды
Проанализируете временные ряды. Создадите из них табличные данные и решите задачу регрессии. - Машинное обучение для текстов
Представите тексты на естественном языке в качестве таблиц с данными. Примените к ним методы классификации и регрессии. Познакомитесь с алгоритмом TF-IDF, языковыми представлениями word2vec и BERT. - Извлечение данных
Познакомитесь с основными системами хранения данных — реляционными базами и распределёнными хранилищами. Научитесь извлекать эти данные запросами на языке SQL и методами библиотеки PySpark. - Компьютерное зрение
Немного Deep Learning. Решите базовые задачи на компьютерное зрение с помощью готовых нейронных сетей и библиотеки Keras. - Обучение без учителя
Познакомитесь с задачами кластеризации и поиска аномалий. - Выпускной проект
В последнем проекте подтвердите, что освоили новую профессию. Уточните задачу заказчика, пройдёте все стадии анализа данных и машинного обучения. Теперь без уроков домашних заданий — всё как на настоящей работе.
Для кого этот курс:
- для разработчиков, желающих расширить свои компетенции;
- для студентов старших курсов и выпускников технических ВУЗов, которые хотят повысить свои шансы на трудоустройство;
- для аспирантов и соискателей научных степеней, желающих приобрести навыки решения научных и исследовательских задач с использованием современных информационных технологий;
- для специалистов, желающих повысить свою компетенцию в области Data Mining, Big Data и Data Science.
Вы будете уметь:
- осуществлять сбор, обобщение и очистку исходных информационных данных;
- находить аналитические зависимости в структурированных и неструктурированных данных;
- осуществлять постановку и решение задач математического программирования и исследования операций;
- знать и уметь применять основные алгоритмы машинного обучения и математического программирования;
- знать, как работает Machine Learning;
- уметь пользоваться основными инструментами Data Mining, Big Data и Data Science;
- знать основные типы и архитектуру нейронных сетей;
- реализовывать, внедрять и обучать Machine Learning модели;
- решать задачи Computer Vision, Natural Language Toolkit, а также прогнозирования временных рядов;
- знать концепции Map Reduce и CUDA;
- знать принципы функционирования высоконагруженных систем;
- разрабатывать рекомендательные системы.
Программа курса:
- Введение в Data Science
- Математические основы Data Science
- Основы Data Science и Machine Learning
- Основные алгоритмы Machine Learning
- Методы предобработки данных
- Рекомендательные системы
- Распознавание изображений, машинное зрение
- Введение в нейронные сети
- Распознавание естественного языка
- Временные ряды
- Общение с заказчиком. Требования к Data Science проектам
- Подведение итогов.
Наша цель – научить вас практическому применению Data Science и Машинного обучения. Поэтому мы сделали упор на практические навыки (естественно, не забывая о теории). Каждый преподаватель выступает в роли персонального тренера навыков Data Science и поддерживает на всех этапах курса.
Мы учим не только решать задачи, но и находить их в реальных проектах. Будет тяжело и больно, но вам понравится.
Программа курса
- Разведочный анализ данных (EDA)
- 3 часа и 2 практических задания
- Введение в python
- Обработка табличных данных
- Визуализация данных
- Введение в машинное обучение и анализ данных
- 3 часа и 1 практическое задание
- Основные направления машинного обучения
- Примеры применения машинного обучения
- Метрики и их важность в машинном обучении
- Методы машинного обучения
- 6 часов и 2 практических задания
- Линейные методы
- Деревья принятия решения
- Метод К-ближайших соседей
- Анализ текстовых данных
- 9 часов и 3 практических задания
- Подход «Bag Of Words»
- Морфологический и синтаксический анализ текста
- Выделение фактов из текста
- Тематическое моделирование
- Word embedding и Word2Vec
- Работа с признаками машинного обучения
- 3 часа и 2 практических задания
- Создание новых признаков машинного обучения
- Подготовка Pipeline-ов
- Другие области машинного обучения
- 9 часов и 3 практических задания
- Онлайн-обучение
- Введение в рекомендательные системы
- Введение в Deep Learning
- Ансамблирование методов машинного обучения
- 3 часа и 1 практическое задание
- Случайный лес
- Градиентный бустинг
- Стекинг
- Блендинг
- Анализ временных рядов
- 3 часа и 1 практическое задание
- ARIMA-подход
- Классическое машинное обучение на временных рядах
- Facebook Prophet
- Amazon GluonTS
- Машинное обучение без учителя
- 3 часа и 2 практических задания
- Кластеризация
- Снижение размерности
- Применение подходов машинного обучения без учителя для генерации новых признаков
- Машинное обучение в production
- 3 часа и 1 практическое задание
- Как завернуть модель машинного обучения в web-сервис
- Как настроить переобучение модели
- Особенности внедрения машинного обучения в production
- Docker-образ для Data Science
- Хакатон
Задача хакатона научить вас работать в команде, правильно планировать ресурсы в условиях сжатых сроков и выбирать наиболее подходящее решение. Все студенты курса разбиваются на команды и решают практическую задачу по машинному обучению в течение 10 часов. Команды соревнуются между собой по заявленной метрике качества. - Хакатон проходит в выходной.
- Курсовой проект
- Результатом обучения станет курсовой проект, а главное требование к нему – готовое MVP.
- В течение курса студенты разбиваются на группы по 2-3 человека и выбирают тему курсового проекта. Последние 3 недели курса команды самостоятельно работают над проектом. На последнем занятии группа и преподаватели собираются на защиту и обсуждение проектов.
Чему вы научитесь:
- Работе с данными
Вы освоите полный цикл работы с данными для решения прикладных задач: выгрузку, обработку, анализ и интерпретацию результатов. - Программированию
С помощью языка Python вы сможете самостоятельно обрабатывать и анализировать данные для решения прикладных задач и получать наглядные результаты в текстовом или графическом виде. - Математическим расчетам
Вы получите фундаментальные знания в области линейной алгебры, теории вероятностей, статистики, математического анализа и методов оптимизации. Научим всему, что нужно для эффективного анализа данных. - Методам машинного обучения
Расскажем, что такое машинное обучение и какие типы задач можно решать с его помощью. Покажем, какие ошибки присущи каждому типу задач, и научим их избегать.
Программа курса:
- Анализ данных с помощью Python
- Синтаксис Python: типы данных, операции, функции, циклы и списки
- Чтение, запись и изменение данных из файлов
- Базовые библиотеки для работы с данными и машинного обучения
- Вывод результатов анализа в текстовом и графическом виде
- Математика для Data Science
- Общий курс математики для анализа данных
- Математический анализ и линейная алгебра
- Базовые принципы статистики и теории вероятностей
- Методы оптимизации.
- Data Science
- Практическое применение машинного обучения
- Типы задач, алгоритмы и методы их решения
- Способы машинного обучения: обучение с учителем
- Способы машинного обучения: обучение без учителя.
- Решение проблем при работе с данными
- Борьба с переобучением и недообучением
- Оценка качества алгоритма и метрики качества
- Несбалансированные выборки и отбор признаков
- Визуализация и интерпретация данных.
Удостоверение о повышении квалификации установленного образца в соответствии с Федеральным законом об образовании, который котируется, в том числе, на территории СНГ.
Для кого:
Для тех, кто хочет ставить задачи с помощью анализа данных, предлагать решения и оценивать их эффективность не только в синтетическом эксперименте, но и в реальных условиях.
Чему мы учим:
Статистике, машинному обучению и работе с разными типами данных.
Где применять эти знания:
Данные лежат в основе большинства современных сервисов и продуктов: от приложений по предсказанию погоды до беспилотных автомобилей. Data Scientist проводит эксперименты, строит метрики, умеет оптимизировать работу сервисов и понимает, где находятся их точки роста.
Программа
В течение семестра каждый учащийся должен успешно пройти как минимум три курса. Например, если в основной программе их два, то необходимо выбрать какой-нибудь из спецкурсов.
Знания проверяются в первую очередь с помощью домашних заданий — экзамены и контрольные проводятся только по некоторым предметам.
- Алгоритмы и структуры данных, часть 1
- Язык Python
- Машинное обучение, часть 1
- Основы статистики в машинном обучении
- Машинное обучение, часть 2
- Автоматическая обработка текстов
- Компьютерное зрение
- Рекомендуемые спецкурсы
- Глубинное обучение
- Обучение с подкреплением
- Self Driving Cars.
Чему вы научитесь?
- Разбираться в основных понятиях и задачах Data Science
- Использовать в работе современные методы машинного обучения
- Применять ключевые концепции сбора, подготовки, исследования и визуализации данных
- Обрабатывать и анализировать большие данные
Что включает курс?
- 7 занятий — от теории к защите курсового проекта
- Контроль знаний — практические работы и тесты
- Сертификат об окончании
- Опыт работы в команде
- Интерактивный личный кабинет с доступом к материалам курса
Программа курса
- ВВЕДЕНИЕ В DATA SCIENCE И MACHINE LEARNING
- Базовые понятия Big Data, Business Intelligence, Data Mining, Data Science, Machine Learning, Artificial Intelligence
- История развития Data Science, современные перспективы
- Кто такой Data Scientist, навыки. Вопросы на собеседовании.
- Обзор процесса Data Science проекта
- Сценарии использования и применения ML в современном мире
- Обзор успешных проектов по Big Data и Machine Learning
- DATA SCIENCE PROCESS AND FRAMEWORKS
- Планирование и подготовка работы
- Исторический обзор методологий ведения Data Science решений
- Детальный обзор современного Data Science процесса и его этапов
- Команда и роли специалистов в проектах Data Science
- Обзор популярных фреймворков и инструментов для Data Science решений
- Workshop 1: Этап Business Understanding
- Основы работы с системой контроля версий
- ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ
- Загрузка исходных данных для анализа в систему (ETL)
- Data cleansing and transformation
- Data Sampling and Quantization
- Workshop 2: Подготовка данных для проекта
- Подходы и методики для визуализации данных
- Практика: Визуализация данных с помощью Power BI и R
- ПРОГНОЗИРОВАНИЕ И КЛАССИФИКАЦИЯ
- Теоретический обзор проблемы и основных методов
- Введение в искусственные нейронные сети для решения различных задач
- Процесс создания реальных программных моделей для прогнозирования и классификации
- Оценка точности обученных моделей, выбор лучшей
- Workshop 3: Создание моделей прогнозирования и классификации
- КЛАСТЕРИЗАЦИЯ И РЕКОМЕНДАЦИОННЫЕ АЛГОРИТМЫ
- Теоретический обзор проблемы и основных методов
- Процесс создания реальных программных моделей для кластеризации, рекомендационных алгоритмов
- Оценка точности обученных моделей, выбор лучшей
- Введение в обработку естественного языка
- Workshop 4: Создание моделей кластеризации и рекомендационных моделей
- ИМПЛЕМЕНТАЦИЯ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ
- Временные ряды и прогнозирование событий
- Имплементация моделей машинного обучения для дальнейшего использования
- Обсуждение результатов выполнения домашних заданий
- Примеры архитектур полноценного проекта
- Workshop 5: Имплементация моделей машинного обучения
- Подведение итогов курса, презентация проектов
- Рекомендуемые материалы и шаги для дальнейшего изучения
Документы об окончании курса:
Сертификат Учебного центра Softline об окончании курса и справка об обучении установленного образца.
Data Science сегодня — это одно из самых востребованных направлений подготовки в бизнес-аналитике. В основе data science лежит работа с большими данными (Big Data).
Данный курс специально разработан для знакомства с основными технологиями и подходами анализа данных.
На первом уровне курса подготовки Вы научитесь:
- Основам Big Data и Data Science.
- Основам работы с SQL — самым популярным языком структурированных запросов.
- Как использовать язык программирования Python для анализа данных.
- Как работать с данными, основы визуализации и описательного анализа.
- Разовьете пространственное, статистическое и функциональное мышление.
Программа курса:
- Введение в data science
- Введение в Big Data и Data science.
- “Разумная” постановка и приемка задач.
- Data science в различных секторах экономики.
- Необходимые навыки для работы с Big Data и Data science.
- Данные и их источники – характеристики, полнота, взаимная корреляция, причинно-следственные связи, признаки искажения.
- Типы данных. Базы данных. Способы хранения данных.
- Математические приемы, используемые при работе с данными: матричные операции, введение в статистику и проверку гипотез.
- Основы SQL
- SQL – язык структурированных запросов.
- Общий подход.
- Базовая концепция, фильтрация, функции.
- Функционал PgAdmin.
- Подзапросы, Join, Табличные операции.
- Python для анализа данных
- Введение в язык программирования Python.
- Функционал Google Colaboratory, основные возможности.
- Язык программирования – Python.
- Основные функции.
- Базовые конструкции и структуры.
- Стандартные функции языка.
- Логические выражения.
- Условные операторы.
- Списки, словари, кортежи.
- Циклы и условия.
- Функции и классы.
- Решение практических задач с использованием Python
- Работа с данными
- Библиотека NumPy, типы данных, массивы и операции с ними.
- Матричные операции, семплирование, чтение файлов.
- Библиотека SciPy. Научные вычисления. Работа с данными. Тестирование данных.
- Библиотека Pandas, загрузка и запись данных, срезы данных, мультииндексация, groupby, datetime, статистические функции.
- Визуализация
- Библиотека Matplotlib, варианты отрисовки графиков и изображений.
- Библиотека Seaborn, визуализация парных взаимосвязей, heatmap, диаграммы.
- Библиотека Plotly. Продвинутая визуализация. Динамические графики.
- Библиотека Dash. Обзор фреймворка для создания дэшбордов (аналитические BI инструменты).
- Описательный анализ
- Pipeline описательного анализа от загрузки датасета, до извлечения полезных метрик и агрегирование.
- Совместное решение бизнес-задачи с использованием ранее освоенных инструментов.
Программы обучения подходят как опытным специалистам, так и начинающим. Все курсы по аналитике больших данных и машинному обучению, предлагаемые в нашем учебном центре, постоянно обновляются с учетом современных трендов науки о данных и прикладных бизнес-кейсов.
РАСПИСАНИЕ КУРСОВ DATA SCIENCE и MACHINE LEARNING
- Подготовка данных для Data Mining на Python
- Машинное обучение на Python
- Визуализация данных на языке Python
- Нейронные сети на Python
- NLP с Python
- Computer vision на Python.
Программа курса
- Python для Data Science
введение в программирование на python - Анализ данных на Data Science
Анализ данных в Pandas и Numpy Визуализация, очистка данных и feature engineering - Основы машинного обучения
Введение в машинное обучение, предобработка данных, Основные модели машинного обучения - Получение сертификата и трудоустройство
Успешно окончившим курсы, гарантируем помощь в поисках работы.
В рамках это практического курсы мы заложим основу работы с данными с помощью языка Python и рассмотрим реализацию алгоритмов машинного обучения для решения типичных задач специалиста data scientist.
- Data Science & Python (3 занятия)
1.1. Введение в Python
- История возникновения Python
- Преимущества и недостатки
- Синтаксис языка
- Типы данных
- Функции
- ООП — объектно ориентированное программирование
- Pythonic идиомы
- Мультипоточность
1.2. Инструменты. Подготовка данных
- IPython + JupyterHub
- Работа с файлами
- Регулярные выражения
- Парсинг текстов (beautiful soup, nltk, и др)
- Другие форматы — JSON, XML
- Параллельная обработка
1.3. Работа с данными
- Pandas
- Matplotlib/Ggplot
- Sklearn
- Numpy, Scipy
- Machine learning (5 занятий)
2.1. Введение в машинное обучение
- Повторение необходимых элементов теории вероятностей и линейной алгебры
- Виды обучения и виды типичных задач
- Когда нужно и когда не нужно машинное обучение
2.2. Линейные модели для классификации и регрессии
- Градиентный спуск, целевые функции для обучения моделей
- Хэширование признаков (hashing trick)
- Квадратичные и кубические признаки
- Практика: линейные модели в sklearn, vowpal wabbit
2.3. Непараметрические модели: метод ближайшего соседа и метод опорных векторов (SVM); Обучение без учителя (unsupervised learning): кластеризация и понижение размерности
- Метод ближайшего соседа
- Метод опорных векторов (SVM)
- Иерархическая кластеризация и алгоритм k-means
- Понижение размерности: алгоритмы MDS и PCA
- Практика: kNN, SVM, k-means, PCA в sklearn.
2.4. Обучение деревьев классификации и регрессии (CART)
- Энтропия и алгоритм ID3
- Бустинг и бэггинг для построения ансамблей
- Практика: random forest и gradient boosting в sklearn, C5.0
2.5. Нейронные сети (deep learning)
- Композиционность и обучение представлений (representation learning)
- Градиентный спуск, дифференцирование сложных функций
- Типичная структура сети, целевые функции и используемые слои
- Свёрточные нейронные сети
- Практика: сверточные нейронные сети в keras
Практические занятия
- Каждое занятие ориентированно на практическое применение Python для анализа данных, вас также ждет много практики и домашних заданий по машинному обучению.
Практический курс по Data Science: от основ Python, NumPy, SciPy, pandas до работы с нейронными сетями.
Научим структурировать и анализировать большой объём данных, прогнозировать события и находить неочевидные закономерности с помощью машинного обучения, составлять выводы и тестировать гипотезы.
Цель курса — профессия Junior Data Scientist.
Для кого этот курс:
- Новичкам в Data Science
С нуля получите все знания и навыки, которые необходимы для работы Junior Data Scientist - Аналитикам
Вы научитесь извлекать максимум из больших массивов данных для быстрой проверки гипотез и построения прогнозов.
Вы научитесь:
- Основам Python-программирования
- Построению моделей машинного обучения
- Работать с библиотекой NumPy
- Работать с библиотекой pandas
- Визуализировать данных с помощью matplotlib
- Работать с базами данных и SQL
- Использовать математику для обработки данных
- Работать с нейронными сетями
- Использовать machine learning в работе
- Проводить A/B-тестирования.
Программа курса
- Основы Python
- Основы Python. Настройка IDE. Базовый синтаксис
- Базовые типы данных и циклы
- Функции и классы
- Продвинутые типы данных: массивы, множества, словари
- Python для анализа данных: numpy и scipy
- Python для анализа данных: pandas
- Лабораторная работа по Python
- Основы линейной алгебры и теории множеств и их реализация в Python
- Методы математической оптимизации и их реализация в Python
- Основы описательной статистики и их реализация в Python
- Статистический анализ данных и их реализация в Python
- Библиотеки для анализа данных
- Библиотека NumPy: методы анализа массивов
- Библиотека NumPy: способы преобразования массивов
- Библиотека pandas: индексация и выбор данных
- Библиотека pandas: применение функций, группировка, сортировка
- Визуализация данных с помощью matplotlib
- База данных и SQL
- Введение в базы данных: необходимость, принципы работы
- Основы работы с базами данных на декларативном языке SQL
- Альтернативные виды баз данных и их различия
- Современные возможности баз данных
- Принципы работы с разными конкретными БД
- Основные библиотеки для подключения к БД из Python
- Математическая статистика и теория вероятностей
- Математика для Data Science
- Дискретные и непрерывные случайные величины
- Центральные предельные теоремы и закон больших чисел
- Производная. Векторы. Матрицы
- Случайные события. Условная вероятность. Формула Байеса. Независимые испытания
- Дискретные случайные величины. Закон распределения вероятностей. Биномиальный закон распределения. Распределение Пуассона
- Описательная статистика. Качественные и количественные характеристики популяции
- Графическое представление данных
- Непрерывные случайные величины. Функция распределения и плотность распределения вероятностей. Равномерное и нормальное распределение. Центральная предельная теорема
- Проверка статистических гипотез.
- Доверительные интервалы.
- Взаимосвязь величин. Параметрические и непараметрические показатели корреляции Корреляционный анализ
- Многомерный статистический анализ. Линейная регрессия
- Дисперсионный анализ. Логистическая регрессия
- Машинное обучение
- Основные концепции Machine Learning
- Жизненный цикл Machine Learning-проекта
- Регрессия: метрики качества, преобразование входных данных
- Регрессия: регуляризация и градиентный спуск
- Классификация: kNN, наивный байесовский классификатор, деревья решений
- Классификация: метрики качества классификации и многоклассовая классификация
- Кластеризация
- Дополнительные техники: понижение размерности. Бустинг и стекинг
- Нейронные сети
- Обработка временных рядов с помощью нейросетей
- Computer vision
- A/B-тестирование
- A/B-тестирование: объем выборки и построение доверительных интервалов
- A/B-тестирование: статистические гипотезы и алгоритмы их проверки
- Практика по работе с данными
Курс для тех, кто не хочет становиться Data Scientist-ом, но хочет разобраться:
- Кто такие Data Scientist-ы, откуда они берутся, что делают в проектах и как их нанимать
- Как работает Data scientist – на примере реальных задач из практики
- Какие методологии применимы к Data science и Machine learning проектам
- Как определять возможности использования машинного обучения в вашей компании.
После курса вы сможете:
- Управлять проектами по Data Science и Machine Learning, эффективно ставить задачи и KPI и принимать работы
- Говорить с Data scientist-ами «на одном языке» и грамотно оценивать результаты их работы
- Стать лидерами и осознанными участниками Цифровой трансформации в компании.
В чем будем разбираться:
- Модуль 1. Введение
- Модуль 2. Сбор и исследование данных
- Модуль 3. Подготовка данных
- Модуль 4. Классические модели
- Модуль 5. Оценка модели
- Модуль 6. Ансамбли и нейросети
- Модуль 7. Data science проект.
Обучение Data Science/Machine Learning — это современные методы машинного обучения и практика работы с большими данными. Ты изучишь основы науки о данных и машинного обучения, научишься обрабатывать и анализировать большие данные, а также узнаешь, как работать с ключевыми концепциями сбора, подготовки и визуализации данных.
На курсе ты научишься:
- Разбираться в основных понятиях и задачах Data Science
- Использовать в работе современные методы машинного обучения
- Применять ключевые концепции сбора, подготовки, исследования и визуализации данных
- Обрабатывать и анализировать большие данные.
Data Science/Machine Learning: обучение по этапам
- ВВЕДЕНИЕ В DATA SCIENCE И MACHINE LEARNING
- Базовые понятия Big Data, Business Intelligence, Data Mining, Data Science, Machine Learning, Artificial Intelligence
- История развития Data Science, современные перспективы
- Кто такой Data Science-специалист и какими навыками он обладает. Вопросы на собеседовании
- Обзор процесса Data Science проекта
- Сценарии использования и применения ML в современном мире
- Обзор успешных проектов по Big Data и Machine Learning
- DATA SCIENCE PROCESS AND FRAMEWORKS
- Планирование и подготовка работы
- Исторический обзор методологий ведения Data Science решений
- Детальный обзор современного Data Science процесса и его этапов
- Команда и роли специалистов в проектах Data Science
- Обзор популярных фреймворков и инструментов для Data Science решений
- Workshop 1: Этап Business Understanding
- Основы работы с системой контроля версий
- ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ
- Загрузка исходных данных для анализа в систему (ETL)
- Data cleansing and transformation
- Data Sampling and Quantization
- Workshop 2: Подготовка данных для проекта
- Подходы и методики для визуализации данных
- Практика: Визуализация данных с помощью Power BI и R
- ПРОГНОЗИРОВАНИЕ И КЛАССИФИКАЦИЯ
- Теоретический обзор проблемы и основных методов
- Введение в искусственные нейронные сети для решения различных задач
- Процесс создания реальных программных моделей для прогнозирования и классификации
- Оценка точности обученных моделей, выбор лучшей
- Workshop 3: Создание моделей прогнозирования и классификации
- КЛАСТЕРИЗАЦИЯ И РЕКОМЕНДАЦИОННЫЕ АЛГОРИТМЫ
- Теоретический обзор проблемы и основных методов
- Процесс создания реальных программных моделей для кластеризации, рекомендационных алгоритмов
- Оценка точности обученных моделей, выбор лучшей
- Введение в обработку естественного языка
- Workshop 4: Создание моделей кластеризации и рекомендационных моделей
- ИМПЛЕМЕНТАЦИЯ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ
- Временные ряды и прогнозирование событий
- Имплементация моделей машинного обучения для дальнейшего использования
- Обсуждение результатов выполнения домашних заданий
- Примеры архитектур полноценного проекта
- Workshop 5: Имплементация моделей машинного обучения
- Подведение итогов курса, презентация проектов
- Рекомендуемые материалы и шаги для дальнейшего изучения
- ЗАЩИТА КУРСОВОГО ПРОЕКТА.
Для кого подойдет онлайн-курс:
- Для желающих войти в IT
Все, кому интересна тема машинного обучения (даже если нет опыта в IT) - Для программистов
Кто нуждается в новых задачах, хочет сменить направление развития, найти лучшую работу и добиться новых успехов в IT. - Для BI
Кто хочет решать новые, более сложные проблемы или оптимизировать существующие. Больше, чем просто работа в Excel. - Для менеджеров и директоров
Которые хотят эффективно управлять командой, понимая возможности и проблемы машинного обучения.
Программа онлайн-курса
Модуль 1: Основы машинного обучения
- признаки, целевую переменную, объекты
- разработку функций, выбор функций, выбор модели
- поработаешь с регрессией на практике
- первое знакомство с поиском признаков
- первое знакомство с кривой обучения
Модуль 2: Погружение в машинное обучение
- познакомишься с библиотекой sklearn и с работой алгоритмов, такими как деревья решений (анг. decision trees), случайный лес (анг. random forest) и другие
- поймешь почему так важна правильная проверка модели, например, перекрестная проверка (cross-validation) или другие
- почему визуализация — Твой друг и Ты узнаешь простые советы, как это сделать
Модуль 3: Gradient Boosting
- Познакомишься с семьей алгоритмов (Gradient) Boosting
- Ознакомишься с некоторыми из лучших реализаций: CatBoost, XGBoost, LightGBM
- Поработаешь с оптимизацией гиперпараметров прагматичным образом
Модуль 4: Feature Engineering
методы инженерии признаков
- для непрерывных значений
- для категориальных значений
- для данных и прочего.
Программа обучения, рассчитанная на 4 месяца
- Изучение основ SQL и R
- Выбор проекта и получение данных
- Очистка и подготовка данных
- Разработка факторов моделирования — Feature Selection
- Разбор типов задач
- Разбор основного типа задачи проекта — линейные модели и регуляризация
- Разбор основного типа задачи проекта — метод «SVM»
- Разбор основного типа задачи проекта — методы нейронных сетей
- Разбор основного типа задачи проекта — методы деревьев решений: «CART» и «Random Forest»
- Разбор основного типа задачи проекта — методы деревьев решений: «Gradient Boosting» и «XGBoost»
- Разбор основного типа задачи проекта — вероятностные модели
- Кластерный анализ — метрические модели
- Ассоциативный анализ — модели на основе правил
- Текстовый анализ
- Дополнения к обучению моделей
- Визуализация данных и моделей — средней сложности и продвинутая
- Составление финального отчёта
- Построение дашборда для мониторинга и автоматической генерации отчётности.
Data scientist — очень перспективная специальность. Анализ данных и машинное обучение всё чаще используются в инновационном бизнесе, фундаментальной науке и прикладных исследованиях.
Для кого:
Слушателю нужна базовая математическая подготовка на уровне младших курсов технического вуза. Не страшно, если вы учились давно — преподаватели помогут освежить знания.
Программа специализации состоит из пяти курсов. Вы освоите работу с данными от и до — сбор, оценка, обработка, результаты.
Вы научитесь:
- формулировать задачи анализа данных, относящиеся к разным классам машинного обучения;
- использовать разные алгоритмы и классы моделей машинного обучения для решения прикладных задач;
- с помощью статистических методов строить корректные выводы по полученным данным.
В программе обучение с учителем, обучение без учителя, решающие деревья, случайные леса, кросс-валидация и многое другое.
Программа заканчивается выполнением практического проекта — вы самостоятельно решите большую аналитическую задачу.