В этом обзоре разберём ТОП онлайн-курсов Data Science. На курсах обучат анализу данных с нуля, дадут знания аналитика. Научат машинному обучению (Machine Learning), построению математических моделей, решению задач с помощью Python и профессии «Data Scientist», в подборке бесплатные и платные курсы для специалистов.
- 1 место. Курс «Профессия Data Scientist PRO» — Skillbox
- 2 место. Курс «Data Scientist: с нуля до middle» — Нетология
- 3 место.Курс «Факультет искусственного интеллекта» — GeekBrains
- Курс «Data Science» — SkillFactory
- Курс «Data Science» — OTUS
- Курс «Data Science: быстрый старт» — ProductStar
- Курс «Специалист по Data Science» — НИУ ВШЭ
- Курс «Data Science» — Центр компьютерного обучения «Специалист» при МГТУ им.Н.Э.Баумана
- Курс «Как стать специалистом по Data Science» — АНО ДПО «ШАД»
- Курс «Основы Data Science» — ООО «Образовательный центр программирования и высоких технологий»
- Курс «Data Science» — SF Education
- Курс «Data Science. Уровень 1: Основные технологии. Python для анализа данных» — Московский Государственный Технический Университет им. Н.Э. Баумана
- Курс «Data Science и Machine Learning» — bigdataschool
- Курс «Data Science» — Бруноям
- Курс «Data Science» — DataWorkshop
- Курс «Data Science» — ООО «ЭйДжей ТехФин Групп»
- Три специализации на выбор
- Проекты на основе реальных задач
- Трудоустройство во время учёбы
- Преподаватели эксперты из сферы Data Science.
Специалисты по Data Science работают с Big Data, выдвигают гипотезы и проверяют их, помогают бизнесу принимать решения на основе анализа данных.
Они создают модели машинного обучения, тренируют нейросети для работы с текстом, видео или изображениями, строят поисковые и рекомендательные системы, разворачивают и поддерживают инфраструктуру для автоматизации работы с данными.
Кому подойдёт этот курс:
- Новичкам
С нуля освоите Python, SQL, научитесь собирать и анализировать данные, получите необходимый теоретический минимум по математике, теории вероятности и статистике. Знания закрепите на практике — решите задачи на основе реальных кейсов и добавите проекты в портфолио. Устроитесь на стажировку по выбранной специальности уже во время обучения. - Программистам
Подтянете математику, статистику, аналитическое и алгоритмическое мышление, научитесь выявлять потребности бизнеса. Получите опыт работы с моделями машинного обучения, будете применять Python для решения задач с данными. Пройдёте процесс от сбора данных до деплоя модели. - Начинающим аналитикам
Вы научитесь выдвигать гипотезы и делать выводы на основе данных. Сможете писать эффективный код на Python, превращать сырые данные в полезную информацию для компании, понимать математику на основе статистики, обучать машины и прогнозировать результаты. Отшлифуете знания, увеличите скорость своей работы и добьётесь повышения.
Кем вы станете после курса?
Вариант 1. Специалист по Machine Learning
Будете анализировать большие объёмы информации, создавать модели для прогнозирования в бизнесе, медицине, промышленности. Обучать нейросети, создавать аналитические системы и рекомендательные сервисы на основе алгоритмов машинного обучения. Продолжите профессиональное развитие в сфере обработки естественного языка или Computer Vision.
Вариант 2. Дата-инженер
Будете разворачивать программную инфраструктуру для организации сбора, обработки и хранения данных. Вам предстоит решать сложные, но интересные задачи: создавать отказоустойчивые системы для работы с Big Data, писать эффективный код на Python и SQL-запросы, автоматизировать рутину, «общаться» с базами данных, работать с облачными платформами.
Вариант 3. Аналитик данных
Будете помогать бизнесу принимать верные решения на основе данных. Собирать информацию и анализировать её, находить аномалии в метриках. На основе исследований будете выявлять закономерности, строить гипотезы и проверять их жизнеспособность с помощью моделирования. Научитесь визуализировать результаты работы в виде графиков и диаграмм.
Программа
Вас ждут 15 курсов с различным уровнем сложности, онлайн-лекции и практика.
3 специализации, 3 бонусных курса
Первая ступень
- Введение в Data Science
- Познакомитесь с основными направлениями Data Science, узнаете, какие задачи решают дата-аналитики, дата-инженеры и специалисты по машинному обучению.
- Пройдёте все этапы работы с данными. Научитесь выявлять проблемы, собирать бизнес-требования. Будете выгружать данные из различных источников, проводить разведочный анализ и готовить датасет к дальнейшему использованию. Обучите и внедрите готовую ML-модель, попробуете себя в роли продуктового и маркетингового аналитика. Узнаете, как формулировать и проверять гипотезы. Освоите базовые инструменты для работы: Python, SQL, Excel, Power Bi, Airflow.
- Основы статистики и теории вероятностей
- Поймёте принципы работы со случайными величинами и событиями. Познакомитесь с некоторыми видами распределений и статистическими тестами, которые пригодятся при составлении моделей и проверке гипотез.
- Основы математики для Data Science
- Получите базовые знания по математике для работы с машинным обучением. Поймёте, что такое аппроксимация, интерполяция, функции, регрессии, матрицы и вектора. Научитесь работать с математическими сущностями в Python-библиотеке SymPy.
Специализации на выбор
- Machine Learning
- Machine Learning. Junior. Познакомитесь с алгоритмами машинного обучения для решения задач регрессии, классификации и кластеризации. Построите и обучите свою первую нейронную сеть. Научитесь подбирать параметры модели, оценивать качество и улучшать её, а также выводить результат в Production.
- Machine Learning. Advanced. Освоите алгоритмы для построения рекомендательных систем и прогнозирования временных рядов. Научитесь применять ансамблевые методы, стекинг, бустинг, а также лучшие практики кросс-валидации, мониторинга и пайплайна ML-разработки.
- Deep Learning. Научитесь работать с нейросетями: подробно узнаете, как они устроены, будете обучать модели, строить и тестировать архитектуры, передавать данные в нейросеть и настраивать параметры.
- Трек 1. NLP. Научитесь применять алгоритмы машинного обучения и нейронные сети для обработки естественного языка. Узнаете, как анализировать тональность текстов, классифицировать их, распознавать речь.
- Трек 2. Computer Vision. С помощью алгоритмов машинного обучения и нейросетей будете распознавать объекты, лица и эмоции, классифицировать и сегментировать изображения. Научитесь применять и адаптировать готовые модели CV для своих целей.
- Data Engineer
- Data Engineer. Junior. Будете собирать сложные наборы данных, подготавливать витрины данных, разворачивать DS-проекты с нуля, тестировать код, выстраивать пайплайны для работы с данными и работать в команде.
- Data Engineer. Advanced. Научитесь пользоваться типовыми средствами мониторинга, настраивать алерты. Будете выбирать архитектуру для хранения данных и работать со сложными типами архитектуры хранилищ. Выстраивать инфраструктуру и пайплайны для обучения ML-моделей.
- Data Analyst
- Data Analyst. Junior. Познакомитесь с базовыми методами анализа на примере анализа продаж. Пройдёте основы маркетинговой, BI и продуктовой аналитики. Прокачаете навыки работы в Excel, Python и Power BI. Будете уметь формулировать и тестировать гипотезы и презентовать результаты заказчику.
- Трек 1. Product Analytics. Будете обрабатывать данные, исследовать взаимодействие пользователей с продуктом, интерпретировать собранную информацию. Полученные результаты помогут решить задачи бизнеса.
- Трек 2. Marketing Analytics. Узнаете, как настраивать веб- и сквозную аналитику, создавать воронки продаж, анализировать поведение пользователей на сайте.
- Трек 3. BI Analytics. Научитесь создавать хранилища данных, проектировать базы данных на языке SQL и работать с таблицами на продвинутом уровне. Будете решать бизнес-задачи с помощью аналитики, чистить данные, правильно их хранить и визуализировать.
Дипломные проекты
- Machine Learning
- Соревнование в Kaggle.
- Командная работа в проекте.
- Data Engineer
- Индивидуальный проект.
- Хакатон.
- Data Analyst
- Командный проект.
- Индивидуальное исследование.
Бонусные курсы
- Карьера разработчика: трудоустройство и развитие
Узнаете, как выбрать подходящую вакансию, подготовиться к собеседованию и вести переговоры с работодателем. Сможете быстрее получить должность, которая соответствует вашим ожиданиям и умениям. - Система контроля версий Git
Научитесь версионировать изменения в коде, создавать и управлять репозиториями, ветками, разрешать конфликты версий. Узнаете полезные правила работы с Git. - Английский для IT-специалистов
Получите языковые навыки, которые помогут пройти собеседование в иностранную компанию и комфортно общаться в смешанных командах.
Вы научитесь не только работать с аналитикой, нейронными сетями, Big Data и помогать компаниям и продуктам расти с помощью технологий, но и освоите ключевые «мягкие навыки»: коммуникацию в команде, целеполагание и эмоциональный интеллект.
Обучение на курсе поможет вам:
- Перейти в профессию с высоким окладом, которая не устареет через 10 лет
Положите начало своему развитию в востребованной во всех отраслях бизнеса профессии - Освоить ключевые технологии и опередить запрос рынка
Станете востребованным специалистом уже в процессе обучения и не растеряете накопленные знания и навыки - Прожить опыт 2-3 лет самостоятельного изучения сферы Data Science
Получите знания в концентрированном формате и с обратной связью от экспертов-практиков ведущих компаний.
Чему вы научитесь:
- Работать с SQL
Научитесь писать запросы, работать с данными в базе без переноса в таблицы, загружать данные и сохранять историю, работать с разными форматами файлов - Использовать Python и библиотеки
Автоматизировать работу с большими массивами, получать данные из внешних источников, обосновывать выводы, полученные при анализе данных - Проверять данные и определять проблемы
Обрабатывать текстовые данные, чтобы передавать их в алгоритмы машинного обучения, генерировать новые значимые признаки - Обучать многослойные нейронные сети и строить модели машинного обучения
Быстро строить модели и проверять гипотезы, строить рекомендательную систему и нейронную сеть, выявлять скрытые аномалии в данных - Применять математику в алгоритмах
Освоите необходимый математический аппарат для продуктивной работы с моделями данных, машинным обучением и нейронными сетями - Лидировать Data-проекты, работать в команде и находить общий язык с заказчиком
Структурировать результаты, формулировать гипотезы, выявлять потребности, находить области применения машинного обучения.
Программа курса:
1 ступень. Погружение
В первом модуле вы разберётесь, что такое аналитическое мышление, и узнаете, откуда берутся данные. Научитесь определять ключевые продуктовые метрики и создавать дашборды.
- Аналитическое мышление
Научитесь думать, как аналитик и формулировать гипотезы для проверки. Поймёте, что аналитика строится вокруг данных. Познакомитесь с базовым инструментом аналитика и сможете проводить в нём простой анализ данных. - Основы визуализации данных
Поймёте, как создавать наглядные интерактивные дашборды для анализа бизнес-метрик в онлайн-режиме. Научитесь определять ключевые продуктовые метрики и создавать дашборды.
2 ступень. SQL, Python и Big Data
Вы получите ключевые навыки специалиста в Data Science для старта в профессии и сможете искать стажировку в новой сфере уже после прохождения первой ступени.
- SQL и получение данных
В идеальном мире data scientist получает готовые данные, чтобы строить модели, но мир неидеален. Вы научитесь с помощью SQL получать данные из БД, фильтровать, агрегировать, а также импортировать и экспортировать. - Аналитика больших данных
Узнаете, как собрать и управлять командой Big Data-проекта. Освоите подход CRISP-DM, определите компетенции и состав команды. Определите, сколько данных вам нужно для нахождения инсайтов. Найдёте задачи под Big Data в своей компании. Поймёте, как и по каким правилам хранить данные. Сможете обосновывать влияние на сбор данных, мониторинг и отчётность. - Python для анализа данных
Вы научитесь пользоваться базовыми инструментами и подходами в Python, чтобы начать работать с данными. Повторите основы линейной алгебры, теории множеств, методов математической оптимизации, описательной статистики, статистического анализа данных, а также научитесь реализовывать это на языке Python. - Математика для анализа данных
Изучите основные операции с векторами, матричными операциями. Рассмотрите генетические алгоритмы, алгоритм дифференциальной эволюции. Узнаете, что такое математическое ожидание, дисперсия и моменты старших порядков. Изучите закон больших чисел.
3 ступень. Машинное обучение, Deep Learning и нейронные сети
Получите расширенные знания в профессии и научитесь работать с нейронным сетями, обучать модели и реализовывать NLP. Начнёте повышать свою квалификацию. После окончания этой ступени сможете претендовать на позицию Junior Data Scientist и совмещать учёбу с работой.
- Машинное обучение
Научитесь проверять данные на полноту, целостность, валидность, наличие шумов, ошибок и пропусков. Узнаете, как очищать данные с помощью NumPy и pandas, как сокращать размерности данных алгоритмами PCA, LDA, NMF. Научитесь строить деревья решений и модели логистической, линейной и полиномиальной регрессии. Узнаете, как использовать Random Forest в задачах классификации. - Рекомендательные системы
В этом и следующих блоках вы будете применять полученные знания в разных областях машинного обучения. Во время этого блока научитесь строить персонализированные и неперсонализированные рекомендательные системы, а также комбинировать их. - Временные ряды
Вы изучите элементарные алгоритмы обработки временных рядов, модели ARIMA и GARCH, прогнозирование значений на их основе. Узнаете, что такое марковские случайные процессы и марковские модели для временных рядов. - Нейронные сети
Научитесь строить простые полносвязанные сети уровня LeNet и AlexNet и экспериментировать с их обучением. Получите теоретическую и практическую базу для использования НС в блоках CV и NLP. - Компьютерное зрение
Вы освоите основные техники машинного зрения — извлечение признаков, поиск по картинкам, сегментирование, детекция объектов. - Обработка естественного языка
Вы освоите морфологический и синтаксический анализ, дистрибутивную семантику и информационный поиск, научитесь снижать размерность в векторной модели, классифицировать, извлекать информацию и генерировать тексты. - Deep Learning
Научитесь работать с многомерными свёртками, овладеете конкурентным преимуществом в задачах с использованием Beam-Search и Teacher Forcing, сможете реализовывать NLP с нуля. Сможете отличать дескриминатор от генератора и обучать генератор выбирать данные из линейной регрессии. Реализуете сеть генерации покемонов и обучите её.
4 ступень. Soft Skills и управление проектами
Сочетание хард- и софт-скиллов поможет вам быстрее расти по карьерной лестнице и добиваться больших результатов. Пройдя все ступени программы, вы сможете претендовать на должность Middle Data Scientist.
- Менеджмент data-проектов
Овладеете методологиями управления Data Science-проектами. Научитесь формулировать идеи и гипотезы, выбирать подходящие методы и алгоритмы, планировать решение задачи. - Эффективные коммуникации и эмоциональный интеллект
Научитесь понимать картину мира окружающих и на основе этого строить коммуникацию. Разберётесь, как управлять своими эмоциями, как реагировать на эмоции окружающих в процессе общения и развивать эмоциональный интеллект. Узнаете, как управлять эмоциями в переговорах. Научитесь заводить полезные связи и деловые знакомства и правильно презентовать себя. - Переговоры
Научитесь грамотно организовывать деловые встречи и эффективно проводить переговоры, добиваясь взаимовыгодных договорённостей. - Публичные выступления
Узнаете, как презентовать идею или отчёт. Научитесь получать удовольствие от выступлений и перестанете их бояться. - Финальный хакатон и Kaggle Competitions
В составе мини-команды за ограниченное время и на основе датасетов крупных игроков рынка вам придётся решать задачи по прогнозированию продаж или оптимизации производства, задействуя все знания и навыки, полученные на курсе.
Интеграция и использование machine learning решений в бизнесе, как правило, подразумевает командную игру, поэтому хакатон полезен ещё и как тренировка необходимых soft skills.
В рамках дипломного проекта вы сможете построить ML-модель для решения своих текущих профессиональных задач: это может быть система прогнозирования продаж, распознавание объектов на фото или видео, анализ временных рядов, анализ больших объёмов текста и т. д.
Вашу квалификацию подтвердит диплом о профессиональной переподготовке.
После учебы вы сможете работать по специальностям
- Data Scientist
- Data Analyst
- Machine Learning Engineer
- Computer Vision-специалист
- NLP-специалист.
У курса два формата обучения:
- живые вебинары;
- видеолекции в записи.
Программа обучения
Подготовительные курсы
Их необязательно проходить, но они помогут лучше погрузиться в обучение.
- Видеокурс: как учиться эффективно
- Основы математики
- Основы программирования
- Основы языка Python
- Базовый курс
I четверть. Программирование
Научитесь работать в Linux и создавать сервера в облачных сервисах AWS, проводить поиск информации и основные операции с файлами, выполнять мониторинг работы сервера. Научитесь использовать язык запросов SQL, создавать и оптимизировать сложные запросы. Освоите библиотеки языка Python, предназначенные для Data Science: Numpy, Pandas, Matplotlib, SciKit-Learn.
- Встреча декана со студентами
- Основы языка Python
- Рабочая станция
- Основы реляционных баз данных и MySQL
- Библиотеки Python для Data Science: Numpy, Matplotlib, Scikit-learn
II четверть. Сбор данных и статистическое исследование
Познакомитесь с теорией вероятностей и математической статистикой. Изучите методы проведения корреляционного, дисперсионного и регрессионного анализа. Научитесь работать с RESTful/SOAP-сервисами, форматами XML и JSON в Python, а также познакомитесь с особенностями открытых данных (OpenData).
- Библиотеки Python для Data Science: продолжение
- Методы сбора и обработки данных из сети Интернет
- Введение в математический анализ
- Теория вероятностей и математической статистике
III четверть. Математика для Data Scientist
Рассмотрите математические аспекты алгоритмов, применяемых в Data Science: линейная и логистическая регрессия, градиентный спуск, метод ближайших соседей, кластеризация, деревья решений, случайный лес, градиентный бустинг. Поймете, как устроены алгоритмы на уровне математики.
- Линейная алгебра
- Алгоритмы анализа данных
IV четверть. Машинное обучение
Освоите Python: от основ программирования до автоматизации, сбора, обработки, анализа и визуализации данных.
- Машинное обучение в бизнесе
- Рекомендательные системы
- Видеокурс от Мегафон + курсовой проект
V четверть. Нейронные сети
Научитесь решать задачи Machne Learning с данными из соцсетей, геоданными, применением графов, а также познакомитесь с нейронными сетями. На практике познакомитесь с фреймворками для разработки нейронных сетей: Tensorflow, Keras, PyTorch.
- Введение в нейронные сети
- Фреймворк PyTorch для разработки искусственных нейронных сетей.
VI четверть. Задачи искусственного интеллекта
Изучите продвинутые архитектуры сверточных нейронных сетей, обработку естественного языка и компьютерное зрение.
- Введение в обработку естественного языка
- Глубокое обучение в компьютерном зрении
II четверть. Специализация
Изучите фреймворк PyTorch и углубитесь в работу с компьютерным зрением и обработкой естественного языка.
- Введение в компьютерное зрение от Nvidia
- Фреймворк PyTorch для разработки искусственных нейронных сетей
- Введение в обработку естественного языка
Курсы вне четверти
Предметы с индивидуальным выбором даты старта
- Подготовка к поиску работы
- История развития искусственного интеллекта
- Алгоритмы и структуры данных на Python
- Введение в высшую математику
- Спортивный анализ данных. Платформа Kaggle
- Язык R для анализа данных
- Визуализация данных в Tableau
- Сверточные нейронные сети в компьютерном зрении.
Вы получите диплом о профессиональной переподготовке
Для работодателя это показатель, что вы разобрались в Data Science и самостоятельно выполнили проекты из вашего портфолио.
Курсы по Data Science:
- «Data Scientist»
Освойте самую востребованную профессию 2021 года. Начните свой путь в Data Science уже сейчас. - «Data Science»
Погрузитесь в Data Science — научитесь выявлять закономерности в данных и создавать модели для решения бизнес-задач в технологических компаниях - «Математика для Data Science»
Прокачайтесь в математике и статистике для Data Science — уверенно решайте нетиповые задачи и успешно проходите собеседования в IT-компании - «Data Engineering»
Освойте Data Engineering — научитесь собирать данные из разных источников, помогайте аналитикам строить гипотезы и принимать бизнес-решения - «Нейронные сети»
Освойте машинное обучение и программирование нейронных сетей — используйте силу Deep Learning для решения бизнес-задач - «Машинное обучение и нейронные сети»
Используйте возможности алгоритмов в нужной вам сфере — продажах, медицине, банковских услугах или на производстве.
Курсы:
- Spark Developer
- NoSQL
- DataOps Engineer
- Специализация «Системный аналитик»
- Математика для Data Science
- Machine Learning. Basic
- Специализация Machine Learning
- Data Engineer
- Machine Learning. Professional
- Machine Learning. Advanced
- Data Warehouse Analyst
- Промышленный ML на больших данных
- Компьютерное зрение
- Супер-практикум по использованию и настройке GIT
- Deep Learning
- Супер-интенсив «Tarantool»
- Анализ данных и машинное обучение в MATLAB.
На данный момент Data Scientist является одной из наиболее востребованных профессий, так как именно эти специалисты отвечают за систематизацию и структурирование больших данных.
Чему вы научитесь:
- Писать на Python
Выучите синтаксис одного из самых популярных языков программирования, сможете создавать и применять функции - Понимать особенности машинного обучения
Узнаете ключевые инструменты Machine Learning и научитесь их применять - Работать с рекомендательными системами
Изучите типы и задачи рекомендательных систем, а также сможете создавать собственные - Переносить проекты на Hadoop
Попрактикуемся в работе с Hadoop и разберем подход MapReduce.
Программа курса (12 блоков и воркшопов)
Блок 1: «Python, быстрый старт: типы данных, функции, классы, ошибки»
- Введение в Python
- Типы данных, функции, классы, ошибки
Блок 2: «Python, быстрый старт: строки, условия, циклы, списки и словари»
- Строки, условия, циклы
- Списки и словари в Python
Блок 3: «Библиотеки для анализа данных: Pandas»
- Пакеты, файлы, Pandas – начало
- Pandas – продолжение
Блок 4: «Библиотеки для анализа данных: визуализация»
- Библиотеки визуализации данных
- Практика
Блок 5: «Знакомство с машинным обучением»
- Задачи машинного обучения
- Ключевые инструменты Machine Learning и их применение
Блок 6: «Основные модели машинного обучения: линейная регрессии»
- Что такое модели машинного обучения?
- Линейная регрессия
- Практика
Блок 7: «Бинарная классификация»
- Алгоритм бинарной классификации данных
- Применение на задачах
Блок 8: «Валидация. Почему это важно»
- Проблема переобучения и недообучения
- Валидация на отложенной выборке
- KFold и Stratified KFold валидация
Блок 9: «Решающие деревья»
- Определение и процесс построения решающего дерева
- Принцип работы дерево с количественными и категориальными признаками
- Сравнение дерева решений с линейными моделями
Блок 10: «Feature Engineering, Feature Selection»
- Состав Feature Engineering
- Базовые подходы к созданию признаков
- Состав Feature Selection
- Разбор кейсов
Блок 11: «Предсказание оттока клиентов и прогноз продаж»
- Разбор кейса
- Практическая задача по предсказанию оттока пользователей
- Практика и применение алгоритмов
Блок 12: «Воркшоп: скоринг кредитного портфеля»
- Разбор кейса и нюансов
- Практическая задача.
Выпускники получают сертификат об успешном прохождении курса — что, вместе с дипломным проектом, будет хорошим аргументом при трудоустройстве.
«Специалист по Data Science» — это программа по анализу данных и машинному обучению, которая охватывает все разделы современного анализа данных, в том числе глубинное обучение и его применения.
Программа начинается с самых основ — изучения программирования и базовых разделов математики — и переходит к разделам по машинному обучению, прикладной статистике и обработке данных, работе с большими данными, глубинному обучению, его применениям к изображениям, текстам и сигналам. При разработке программы мы сделали акцент на практическую работу.
По итогам программы вы получите самые актуальные знания в одной из самых востребованных областей 21 века, проекты в портфолио и диплом о профессиональной переподготовке установленного НИУ ВШЭ образца.
Программа:
- Python для автоматизации и анализа данных
18 занятий - Математика для анализа данных
19 занятий - Прикладная статистика для машинного обучения
9 занятий - Алгоритмы и структуры данных
10 занятий - Машинное обучение
14 занятий - Промышленное машинное обучение на Spark
8 занятий - Глубинное обучение
10 занятий - Прикладные задачи анализа данных
10 занятий.
Data Science – это наука о данных, которая занимается сбором, представлением, обработкой и анализом данных в цифровой форме, а главное – помогает выделять из общего массива данных полезную информацию. Она связана с такими направлениями как Big Data, машинное обучение и анализ данных и еще целым рядом современных ИТ-направлений.
Специалисту, который занимается такой работой (Data Scientist), нужны знания и навыки сразу в нескольких областях:
- математика и статистика,
- программирование,
- машинное обучение,
- работа с базами данных,
- визуализация данных.
Специалист по Data Science структурирует и анализирует большие объёмы данных, применяет машинное обучение для предсказания событий и обнаружения неочевидных закономерностей. Помогает создавать и улучшать продукты в бизнесе, промышленности и науке. Мы хотим научить вас основным инструментам этой профессии: Python и его библиотекам, в том числе Scikit-Learn и XGBoost, Jupyter Notebook, SQL.
Программа обучения:
- Основы Python и анализа данных: бесплатный вводный курс
Познакомитесь с языком программирования Python, библиотекой Pandas, а также средой программирования Jupyter. Узнаете основные концепции анализа данных и поймёте, чем занимаются аналитики и специалисты по Data Science. - Предобработка данных
Научитесь очищать данные от выбросов, пропусков и дубликатов, а также преобразовывать разные форматы данных. - Исследовательский анализ данных
Изучите основы теории вероятностей и статистики. Примените их для исследования основных свойств данных, поиска закономерностей, распределений и аномалий. Познакомитесь с библиотеками SciPy и Matplotlib. Отрисуете диаграммы, поупражняетесь в анализе графиков. - Статистический анализ данных
Научитесь анализировать взаимосвязи в данных методами статистики. Узнаете, что такое статистическая значимость, гипотезы и доверительные интервалы. - Сборный проект -1
Научитесь предварительному исследованию данных, сформулируете и проверите гипотезы. - Введение в машинное обучение
Освоите основные концепции машинного обучения. Познакомитесь с библиотекой Scikit-Learn и примените её для создания первого проекта с машинным обучением. - Обучение с учителем (классификация и регрессия)
Углубитесь в самую востребованную область машинного обучения — обучение с учителем. Узнаете, как обращаться с несбалансированными данными. - Машинное обучение в бизнесе
Примените свои знания о машинном обучении к задачам бизнеса. Узнаете, что такое бизнес-метрики, KPI и A/B-тестирование. - Сборный проект -2
Подготовите данные для машинного обучения. С помощью модели оцените её качество. - Линейная алгебра
Заглянете внутрь нескольких изученных ранее алгоритмов и лучше поймёте, как их применять. На практике освоите с нуля главные концепции линейной алгебры: линейные пространства, линейные операторы, евклидовы пространства. - Численные методы
Разберёте ряд алгоритмов и приспособите их к решению практических задач с использованием численных методов. Разберётесь, как обучаются нейронные сети. Для этого вы освоите приближённые вычисления, оценку сложности алгоритма, градиентный спуск и бустинг. - Временные ряды
Проанализируете временные ряды. Создадите из них табличные данные и решите задачу регрессии. - Машинное обучение для текстов
Представите тексты на естественном языке в качестве таблиц с данными. Примените к ним методы классификации и регрессии. Познакомитесь с алгоритмом TF-IDF, языковыми представлениями word2vec и BERT. - Извлечение данных
Познакомитесь с основными системами хранения данных — реляционными базами и распределёнными хранилищами. Научитесь извлекать эти данные запросами на языке SQL и методами библиотеки PySpark. - Компьютерное зрение
Немного Deep Learning. Решите базовые задачи на компьютерное зрение с помощью готовых нейронных сетей и библиотеки Keras. - Обучение без учителя
Познакомитесь с задачами кластеризации и поиска аномалий. - Выпускной проект
В последнем проекте подтвердите, что освоили новую профессию. Уточните задачу заказчика, пройдёте все стадии анализа данных и машинного обучения. Теперь без уроков домашних заданий — всё как на настоящей работе.
Для кого этот курс:
- для разработчиков, желающих расширить свои компетенции;
- для студентов старших курсов и выпускников технических ВУЗов, которые хотят повысить свои шансы на трудоустройство;
- для аспирантов и соискателей научных степеней, желающих приобрести навыки решения научных и исследовательских задач с использованием современных информационных технологий;
- для специалистов, желающих повысить свою компетенцию в области Data Mining, Big Data и Data Science.
Вы будете уметь:
- осуществлять сбор, обобщение и очистку исходных информационных данных;
- находить аналитические зависимости в структурированных и неструктурированных данных;
- осуществлять постановку и решение задач математического программирования и исследования операций;
- знать и уметь применять основные алгоритмы машинного обучения и математического программирования;
- знать, как работает Machine Learning;
- уметь пользоваться основными инструментами Data Mining, Big Data и Data Science;
- знать основные типы и архитектуру нейронных сетей;
- реализовывать, внедрять и обучать Machine Learning модели;
- решать задачи Computer Vision, Natural Language Toolkit, а также прогнозирования временных рядов;
- знать концепции Map Reduce и CUDA;
- знать принципы функционирования высоконагруженных систем;
- разрабатывать рекомендательные системы.
Программа курса:
- Введение в Data Science
- Математические основы Data Science
- Основы Data Science и Machine Learning
- Основные алгоритмы Machine Learning
- Методы предобработки данных
- Рекомендательные системы
- Распознавание изображений, машинное зрение
- Введение в нейронные сети
- Распознавание естественного языка
- Временные ряды
- Общение с заказчиком. Требования к Data Science проектам
- Подведение итогов.
Чему вы научитесь:
- Работе с данными
Вы освоите полный цикл работы с данными для решения прикладных задач: выгрузку, обработку, анализ и интерпретацию результатов. - Программированию
С помощью языка Python вы сможете самостоятельно обрабатывать и анализировать данные для решения прикладных задач и получать наглядные результаты в текстовом или графическом виде. - Математическим расчетам
Вы получите фундаментальные знания в области линейной алгебры, теории вероятностей, статистики, математического анализа и методов оптимизации. Научим всему, что нужно для эффективного анализа данных. - Методам машинного обучения
Расскажем, что такое машинное обучение и какие типы задач можно решать с его помощью. Покажем, какие ошибки присущи каждому типу задач, и научим их избегать.
Программа курса:
- Анализ данных с помощью Python
- Синтаксис Python: типы данных, операции, функции, циклы и списки
- Чтение, запись и изменение данных из файлов
- Базовые библиотеки для работы с данными и машинного обучения
- Вывод результатов анализа в текстовом и графическом виде
- Математика для Data Science
- Общий курс математики для анализа данных
- Математический анализ и линейная алгебра
- Базовые принципы статистики и теории вероятностей
- Методы оптимизации.
- Data Science
- Практическое применение машинного обучения
- Типы задач, алгоритмы и методы их решения
- Способы машинного обучения: обучение с учителем
- Способы машинного обучения: обучение без учителя.
- Решение проблем при работе с данными
- Борьба с переобучением и недообучением
- Оценка качества алгоритма и метрики качества
- Несбалансированные выборки и отбор признаков
- Визуализация и интерпретация данных.
Удостоверение о повышении квалификации установленного образца в соответствии с Федеральным законом об образовании, который котируется, в том числе, на территории СНГ.
Data Science сегодня — это одно из самых востребованных направлений подготовки в бизнес-аналитике. В основе data science лежит работа с большими данными (Big Data).
Данный курс специально разработан для знакомства с основными технологиями и подходами анализа данных.
На первом уровне курса подготовки Вы научитесь:
- Основам Big Data и Data Science.
- Основам работы с SQL — самым популярным языком структурированных запросов.
- Как использовать язык программирования Python для анализа данных.
- Как работать с данными, основы визуализации и описательного анализа.
- Разовьете пространственное, статистическое и функциональное мышление.
Программа курса:
- Введение в data science
- Введение в Big Data и Data science.
- “Разумная” постановка и приемка задач.
- Data science в различных секторах экономики.
- Необходимые навыки для работы с Big Data и Data science.
- Данные и их источники – характеристики, полнота, взаимная корреляция, причинно-следственные связи, признаки искажения.
- Типы данных. Базы данных. Способы хранения данных.
- Математические приемы, используемые при работе с данными: матричные операции, введение в статистику и проверку гипотез.
- Основы SQL
- SQL – язык структурированных запросов.
- Общий подход.
- Базовая концепция, фильтрация, функции.
- Функционал PgAdmin.
- Подзапросы, Join, Табличные операции.
- Python для анализа данных
- Введение в язык программирования Python.
- Функционал Google Colaboratory, основные возможности.
- Язык программирования – Python.
- Основные функции.
- Базовые конструкции и структуры.
- Стандартные функции языка.
- Логические выражения.
- Условные операторы.
- Списки, словари, кортежи.
- Циклы и условия.
- Функции и классы.
- Решение практических задач с использованием Python
- Работа с данными
- Библиотека NumPy, типы данных, массивы и операции с ними.
- Матричные операции, семплирование, чтение файлов.
- Библиотека SciPy. Научные вычисления. Работа с данными. Тестирование данных.
- Библиотека Pandas, загрузка и запись данных, срезы данных, мультииндексация, groupby, datetime, статистические функции.
- Визуализация
- Библиотека Matplotlib, варианты отрисовки графиков и изображений.
- Библиотека Seaborn, визуализация парных взаимосвязей, heatmap, диаграммы.
- Библиотека Plotly. Продвинутая визуализация. Динамические графики.
- Библиотека Dash. Обзор фреймворка для создания дэшбордов (аналитические BI инструменты).
- Описательный анализ
- Pipeline описательного анализа от загрузки датасета, до извлечения полезных метрик и агрегирование.
- Совместное решение бизнес-задачи с использованием ранее освоенных инструментов.
Программы обучения подходят как опытным специалистам, так и начинающим. Все курсы по аналитике больших данных и машинному обучению, предлагаемые в нашем учебном центре, постоянно обновляются с учетом современных трендов науки о данных и прикладных бизнес-кейсов.
РАСПИСАНИЕ КУРСОВ DATA SCIENCE и MACHINE LEARNING
- Подготовка данных для Data Mining на Python
- Машинное обучение на Python
- Визуализация данных на языке Python
- Нейронные сети на Python
- NLP с Python
- Computer vision на Python.
Практический курс по Data Science: от основ Python, NumPy, SciPy, pandas до работы с нейронными сетями.
Научим структурировать и анализировать большой объём данных, прогнозировать события и находить неочевидные закономерности с помощью машинного обучения, составлять выводы и тестировать гипотезы.
Цель курса — профессия Junior Data Scientist.
Для кого этот курс:
- Новичкам в Data Science
С нуля получите все знания и навыки, которые необходимы для работы Junior Data Scientist - Аналитикам
Вы научитесь извлекать максимум из больших массивов данных для быстрой проверки гипотез и построения прогнозов.
Вы научитесь:
- Основам Python-программирования
- Построению моделей машинного обучения
- Работать с библиотекой NumPy
- Работать с библиотекой pandas
- Визуализировать данных с помощью matplotlib
- Работать с базами данных и SQL
- Использовать математику для обработки данных
- Работать с нейронными сетями
- Использовать machine learning в работе
- Проводить A/B-тестирования.
Программа курса
- Основы Python
- Основы Python. Настройка IDE. Базовый синтаксис
- Базовые типы данных и циклы
- Функции и классы
- Продвинутые типы данных: массивы, множества, словари
- Python для анализа данных: numpy и scipy
- Python для анализа данных: pandas
- Лабораторная работа по Python
- Основы линейной алгебры и теории множеств и их реализация в Python
- Методы математической оптимизации и их реализация в Python
- Основы описательной статистики и их реализация в Python
- Статистический анализ данных и их реализация в Python
- Библиотеки для анализа данных
- Библиотека NumPy: методы анализа массивов
- Библиотека NumPy: способы преобразования массивов
- Библиотека pandas: индексация и выбор данных
- Библиотека pandas: применение функций, группировка, сортировка
- Визуализация данных с помощью matplotlib
- База данных и SQL
- Введение в базы данных: необходимость, принципы работы
- Основы работы с базами данных на декларативном языке SQL
- Альтернативные виды баз данных и их различия
- Современные возможности баз данных
- Принципы работы с разными конкретными БД
- Основные библиотеки для подключения к БД из Python
- Математическая статистика и теория вероятностей
- Математика для Data Science
- Дискретные и непрерывные случайные величины
- Центральные предельные теоремы и закон больших чисел
- Производная. Векторы. Матрицы
- Случайные события. Условная вероятность. Формула Байеса. Независимые испытания
- Дискретные случайные величины. Закон распределения вероятностей. Биномиальный закон распределения. Распределение Пуассона
- Описательная статистика. Качественные и количественные характеристики популяции
- Графическое представление данных
- Непрерывные случайные величины. Функция распределения и плотность распределения вероятностей. Равномерное и нормальное распределение. Центральная предельная теорема
- Проверка статистических гипотез.
- Доверительные интервалы.
- Взаимосвязь величин. Параметрические и непараметрические показатели корреляции Корреляционный анализ
- Многомерный статистический анализ. Линейная регрессия
- Дисперсионный анализ. Логистическая регрессия
- Машинное обучение
- Основные концепции Machine Learning
- Жизненный цикл Machine Learning-проекта
- Регрессия: метрики качества, преобразование входных данных
- Регрессия: регуляризация и градиентный спуск
- Классификация: kNN, наивный байесовский классификатор, деревья решений
- Классификация: метрики качества классификации и многоклассовая классификация
- Кластеризация
- Дополнительные техники: понижение размерности. Бустинг и стекинг
- Нейронные сети
- Обработка временных рядов с помощью нейросетей
- Computer vision
- A/B-тестирование
- A/B-тестирование: объем выборки и построение доверительных интервалов
- A/B-тестирование: статистические гипотезы и алгоритмы их проверки
- Практика по работе с данными
Для кого подойдет онлайн-курс:
- Для желающих войти в IT
Все, кому интересна тема машинного обучения (даже если нет опыта в IT) - Для программистов
Кто нуждается в новых задачах, хочет сменить направление развития, найти лучшую работу и добиться новых успехов в IT. - Для BI
Кто хочет решать новые, более сложные проблемы или оптимизировать существующие. Больше, чем просто работа в Excel. - Для менеджеров и директоров
Которые хотят эффективно управлять командой, понимая возможности и проблемы машинного обучения.
Программа онлайн-курса
Модуль 1: Основы машинного обучения
- признаки, целевую переменную, объекты
- разработку функций, выбор функций, выбор модели
- поработаешь с регрессией на практике
- первое знакомство с поиском признаков
- первое знакомство с кривой обучения
Модуль 2: Погружение в машинное обучение
- познакомишься с библиотекой sklearn и с работой алгоритмов, такими как деревья решений (анг. decision trees), случайный лес (анг. random forest) и другие
- поймешь почему так важна правильная проверка модели, например, перекрестная проверка (cross-validation) или другие
- почему визуализация — Твой друг и Ты узнаешь простые советы, как это сделать
Модуль 3: Gradient Boosting
- Познакомишься с семьей алгоритмов (Gradient) Boosting
- Ознакомишься с некоторыми из лучших реализаций: CatBoost, XGBoost, LightGBM
- Поработаешь с оптимизацией гиперпараметров прагматичным образом
Модуль 4: Feature Engineering
методы инженерии признаков
- для непрерывных значений
- для категориальных значений
- для данных и прочего.
Программа обучения, рассчитанная на 4 месяца
- Изучение основ SQL и R
- Выбор проекта и получение данных
- Очистка и подготовка данных
- Разработка факторов моделирования — Feature Selection
- Разбор типов задач
- Разбор основного типа задачи проекта — линейные модели и регуляризация
- Разбор основного типа задачи проекта — метод «SVM»
- Разбор основного типа задачи проекта — методы нейронных сетей
- Разбор основного типа задачи проекта — методы деревьев решений: «CART» и «Random Forest»
- Разбор основного типа задачи проекта — методы деревьев решений: «Gradient Boosting» и «XGBoost»
- Разбор основного типа задачи проекта — вероятностные модели
- Кластерный анализ — метрические модели
- Ассоциативный анализ — модели на основе правил
- Текстовый анализ
- Дополнения к обучению моделей
- Визуализация данных и моделей — средней сложности и продвинутая
- Составление финального отчёта
- Построение дашборда для мониторинга и автоматической генерации отчётности.