- Кто такой ML разработчик?
- Что делают ML разработчики и чем занимаются?
- Что должен знать и уметь ML разработчик?
- Востребованность и зарплаты ML разработчиков
- Как стать ML-разработчиком и где учиться?
- 15+ лучших курсов для обучения ML разработчика: подробный обзор
- 1 место. Курс «Профессия Data Scientist: машинное обучение» — Skillbox
- 2 место. Курс «Машинное обучение» — Нетология
- 3 место. Курс «Факультет искусственного интеллекта» — GeekBrains
- Курс «По машинному обучению» — SkillFactory
- Курс «Машинное обучение. Продвинутый уровень» — OTUS
- Курс «Машинное обучение» — Центр непрерывного образования
- Курс «Машинное обучение» — BigData Team
- Курс «Основы машинного обучения» — Luxoft Training
- Курс «Машинное обучение и анализ данных» — АНО ДПО «ШАД», ООО «Яндекс»
- Курс «Машинное обучение» — Amazon Web Services, Inc.
- Курс «Основы машинного обучения» — Открытое образование
- Курс «Машинное обучение и анализ данных» — ЛМФТИ
- Курс «Разработка машинного обучения» — Школа анализа данных
- Курс «Машинное обучение для руководителей» — ООО «ФРОО»
- Курс «Машинное обучение » — Московский Государственный Технический Университет им. Н.Э. Баумана
- Курс «Машинное обучение» — hedu
- Курс «Применение машинного обучения» — Центр компьютерного обучения «Специалист» при МГТУ им.Н.Э.Баумана
- Курс «Машинное обучение» — НОЧУ ДПО «НЬЮПРОЛАБ»
- Курс «Машинное обучение» — ITEA
- Курс «Машинное обучение Углублённый курс» — АНО ДО «РШП»
- Курс «Машинное обучение » — “AI-ACADEMY”
Кто такой ML разработчик?
ML-разработчик — это программист, который работает с машинным обучением (Machine Learning) и с помощью специальных наборов данных и алгоритмов обучает искусственный интеллект.
Что делают ML разработчики и чем занимаются?
Обязанности на примере одной из вакансий:
- Адаптация и совершенствование существующих алгоритмов;
- Поиск и внедрение новых алгоритмов;
- Оценка эффективности решений ML;
- Обмен знаниями с командой разработчиков, разработчиками и клиентами;
- Написание качественного кода на Python;
- Создание и поддержка ML-инфраструктуры и инструментов для боевых датасаентистов на проектах;
- Уточнение и формирование требований к инфраструктуре и инструментам совместно с боевыми датасаентистами, менеджерами и другими коллегами.
Что должен знать и уметь ML разработчик?
Требования к ML разработчикам:
- Unix
- Python
- Опыт работы с продакшном
- Знание базового ML
- Docker
- Git
- и других схожих инструментов.
Востребованность и зарплаты ML разработчиков
На сайте поиска работы в данный момент открыто 886 вакансий, с каждым месяцем спрос на ML разработчиков растет.
Количество вакансий с указанной зарплатой ML разработчика по всей России:
- от 100 000 руб. – 195
- от 200 000 руб. – 142
- от 300 000 руб. – 88
- от 405 000 руб. – 46
- от 505 000 руб. – 19
Вакансий с указанным уровнем дохода по Москве:
- от 100 000 руб. – 109
- от 200 000 руб. – 88
- от 300 000 руб. – 54
- от 400 000 руб. – 25
- от 505 000 руб. – 12
Вакансий с указанным уровнем дохода по Санкт-Петербургу:
- от 195 000 руб. – 21
- от 340 000 руб. – 10
- от 490 000 руб. – 4
- от 785 000 руб. – 1
Как стать ML-разработчиком и где учиться?
Варианты обучения для ML разработчика с нуля:
- Самостоятельное обучение – всевозможные видео на YouTube, книги, форумы, самоучители и т.д. Плюсы – дешево или очень недорого. Минусы – нет системности, самостоятельное обучение может оказаться неэффективным, полученные навыки могут оказаться невостребованными у работодателя;
- Онлайн-обучение. Пройти курс можно на одной из образовательных платформ. Такие курсы рассчитаны на людей без особой подготовки, поэтому подойдут большинству людей. Обычно упор в онлайн-обучении делается на практику – это позволяет быстро пополнить портфолио и устроиться на работу сразу после обучения.
Ниже сделали обзор 15+ лучших онлайн-курсов.
15+ лучших курсов для обучения ML разработчика: подробный обзор
Вы научитесь создавать аналитические системы и использовать алгоритмы машинного обучения, освоите работу с нейросетями. Наполните портфолио и получите престижную профессию.
- Длительность 19 месяцев
- Помощь в трудоустройстве
- 7 курсов в одной программе
- Доступ к курсу навсегда
На рынке не хватает специалистов по Data Science
- 500 компаний,
включая Сбербанк, Яндекс и Тинькофф, ищут специалистов по Data Science
- 100 000 рублей
зарплата начинающего специалиста
Кому подойдёт этот курс
- Людям без подготовки в IT
Вы получите базовые навыки по программированию, аналитике, статистике и математике, которые откроют путь к карьере в Data Science и Machine Learning. Сможете использовать свои знания сразу на практике.
- Программистам
Вы прокачаете свои знания и навыки в программировании на Python и R. Подтянете математику и умение мыслить как аналитик, использовать алгоритмы машинного обучения для решения бизнес-задач — и усилите портфолио мощными проектами.
- Менеджерам и владельцам бизнеса
Научитесь использовать данные для построения прогнозов и оптимизации бизнес-процессов и переведёте компанию на новый уровень.
Чему вы научитесь
- Программировать на Python
Освоите самый популярный язык для работы с данными.
- Визуализировать данные
Сможете разрабатывать дашборды или интерактивную инфографику.
- Работать с библиотеками и базами данных
Научитесь работать с библиотеками Pandas, NumPy и Matpotlib и освоите базы данных PostgreSQL, SQLite3, MongoDB.
- Применять нейронные сети для решения реальных задач
Освоите фреймворки для обучения нейронных сетей Tensorflow и Keras. Узнаете, как устроены нейронные сети для задач компьютерного зрения и лингвистики.
- Строить модели машинного обучения
Изучите разные алгоритмы, научитесь решать задачи регрессии, классификации и кластеризации.
- Создавать рекомендательные системы
Построите рекомендательную систему и добавите её в своё портфолио.
Помогаем построить карьеру мечты
Вас ждёт индивидуальная карьерная консультация, помощь в оформлении резюме и портфолио. На основе ваших пожеланий подберём подходящие вакансии, подготовим к собеседованию и сделаем всё, чтобы вы получили оффер.
За 2021 год мы трудоустроили более 1000 студентов на работу по новой профессии
Программа
Вас ждут 7 курсов с разным уровнем сложности, знание которых можно приравнять к году работы.
- 82 тематических модуля
- 288 онлайн-уроков
- Python для Data Science
- Введение в Data Science
- Введение в Python
- Основы
- Операторы, выражения
- Условный оператор if, ветвления
- Условный оператор if: продолжение
- Цикл while
- For: циклы со счетчиком
- For: циклы со счетчиком, часть 2. Функция range
- Цикл for: работа со строками
- Вложенные циклы
- Числа с плавающей точкой (int/float)
- Функции
- float 2
- Установка и настройка IDE
- Базовые коллекции: Cписки
- Методы для работы со списками
- List comprehensions
- Базовые коллекции: Строки
- Базовые коллекции: словари и множества
- Базовые коллекции: Кортежи
- Функции — Рекурсия
- Работа с файлами
- Исключения: работа с ошибками
- Введение в ООП
- Основные принципы ООП
- Итераторы и генераторы
- Аналитика. Начальный уровень
- Библиотека NumPy: методы анализа массивов
- Библиотека NumPy: способы преобразования массивов
- Библиотека pandas: индексация и выбор данных
- Библиотека pandas: применение функций, группировка, сортировка
- Основы визуализации данных с помощью Matplotlib
- Продвинутая визуализация с Matplotlib
- Визуализация с Seaborn
- Мастер-класс: разведочный анализ (EDA)
- Курсовая работа. Подготовка аналитического отчёта на основе имеющихся данных в качестве помощи продюсерам образовательных программ эффективно выстраивать стратегию по обновлению и улучшению курсов
- Чтение и запись данных: CSV, XLSX
- Основы SQL
- Чтение и запись данных: JSON, MongoDB
- Работа со строками
- Курсовая работа. Часть 1. Подготовка аналитического отчёта для HR-отдела. На основе аналитики необходимо составить рекомендации для отдела кадров по стратегии набора персонала и взаимодействию с сотрудниками
- Курсовая работа. Часть 2. подготовка аналитического отчёта для SMM-отдела компании Skillbox на основе паблика Skillbox «ВКонтакте»
- Статистика и теория вероятностей
- Основы статистики и теории вероятностей
- Как врать при помощи статистики
- Основы математики для Data Science
- Базовые математические объекты и SymPy. Дроби и преобразования
- Базовые математические объекты и SymPy. Функции и дополнительные объекты
- Функции одной переменной, их свойства и графики
- Интерполяция и полиномы: квадратичные и кубические функции
- Аппроксимация и преобразование функций: сдвиги, растяжения, сжатия
- Аппроксимация и работа с производными
- Функции нескольких переменных, их свойства и графики
- Частные производные функции нескольких переменных
- Векторы и матрицы. Градиент
- Линейная регрессия и системы линейных уравнений
- Разложение матриц. Собственные векторы и значения
- Машинное обучение. Начальный уровень
- Основные концепции Machine Learning (ML)
- Жизненный цикл ML-проекта
- Регрессия: метрики качества, преобразование входных данных
- Регрессия: регуляризация и градиентный спуск
- Классификация: kNN, наивный байесовский классификатор, деревья решений
- Классификация: метрики качества классификации и многоклассовая классификация
- Кластеризация
- Дополнительные техники: понижение размерности
- Дополнительные техники: бустинг и стекинг
- Знакомство с Kaggle
- Курсовая работа. Проанализировать данные телекоммуникационной компании и спрогнозировать отток пользователей на основе демографических характеристик, услуг, которыми они пользуются, длительности пользования услугами, метода и размера оплаты
- Машинное обучение. Средний уровень
- Введение в нейронные сети
- Обучение нейронных сетей
- Нейронные сети на практике
- Свёрточные нейросети для задачи классификации изображений: введение в свёртки (многоканальные свёртки, рецептивное поле)
- Свёрточные нейросети для задачи классификации изображений: продвинутые операции со свёрткой (архитектуры сетей VGG и ResNet, задача Transfer Learning для свёрточных сетей)
- Семантическая сегментация: слабая локализация и полносвёрточные нейросети (FCN)
- Семантическая сегментация: продвинутые архитектуры FCN для семантической сегментации
- Детектирование объектов. Задачи классификации и локализации
- Детектирование объектов. Анализ и реализация R-CNN-архитектуры
- Детектирование объектов. Разбор популярных архитектур (Fast/Faster R-CNN, YOLO, SSD) и знакомство с TensorFlow Object Detection API
- От дискриминативных моделей к генеративным. Style transfer
- Генеративные состязательные сети
- Введение в NLP
- NLP на нейросетях. Рекуррентные нейросети, классификация текстов
- NLP на нейросетях. Языковые модели, Attention, Transformer
- Обучение с подкреплением. Q-Learning
- Обучение с подкреплением. Deep Q-Learning
- Ускорение и оптимизация нейронных сетей
- Внедрение DL моделей в production
- Введение в рекомендательные системы и задачи ранжирования
- Современные подходы к построению рекомендательных систем
- Универсальные знания программиста
- Как стать первоклассным программистом
- Вёрстка email-рассылок. Советы на реальных примерах
- The state of soft skills
- Как мы создавали карту развития для разработчиков
- Как общаться по email и эффективно работать с почтой
- Повышение своей эффективности
- Спор о первом языке программирования
- Саморазвитие: как я не усидел на двух стульях и нашёл третий
- Data-driven подход к продуктивности — инсайты из данных миллиона людей
- Протокол HTTP
- Введение в алгоритмы
- Английский для IT-специалистов
- IT Resume and CV
- Job interview: questions and answers
- Teamwork
- Workplace communication
- Business letter
- Software development
- System concept development and SRS
- Design
- Development and Testing
- Deployment and Maintenance
Ваше резюме после обучения
- Должность Специалист по машинному обучению
- Зарплата от:100 000 ₽
Профессиональные навыки:
- Владение Python для машинного обучения
- Применение алгоритмов машинного обучения
- Работа с различными источниками данных: CSV, XML и XLS
- Написание рекомендательных систем
- Работа с базами данных MongoDB, PostgreSQL, SQLite3 и SQL
- Работа с нейронными сетями
- Работа с библиотеками pandas, numpy, matplotlib
Диплом Skillbox
Подтвердит, что вы прошли курс, и станет дополнительным аргументом при устройстве на работу.
Курс для тех, кто хочет получить прикладной опыт создания работающих нейронных сетей.
Закладываем фундамент для развития на уровне middle.
По промокоду ROMANSEMENTSOV дополнительная скидка 5% на все онлайн-курсы, кроме направлений «MBA», «Саморазвитие и хобби», «Высшее образование» и курс «Директор по интернет маркетингу».
Скидка действует от текущей цены и суммируется с действующими скидками на сайте Нетологии. Срок действия: 29.06.22 — 31.08.22.
Формат обучения:
Онлайн и очные занятия в Москве
Уровень:
Продвинутый
Документ:
Диплом о профессиональной переподготовке
Чему научитесь на курсе
- Формулировать задачу для data science проекта
- Выдвигать идеи и гипотезы и составлять план решения задачи
- Подбирать алгоритмы и метрики под задачу для разных моделей
- На примерах изучите основные алгоритмы и узнаете, в каких случаях их использовать
- Строить модели машинного обучения с помощью библиотеки Sklearn
- Рассмотрите примеры кода обучения, научитесь применять знания на практике
- Оценивать качество моделей машинного обучения
- Ознакомитесь с подходами предотвращения переобучения, изучите методы оценки
- Интерпретировать результаты и составлять отчёт об исследовании
- Научитесь сравнивать алгоритмы на готовых датасетах, определять методы улучшения качества
Программа курса:
- Построение модели
Узнаете, что такое библиотека Sklearn и как ею пользоваться. Изучите алгоритмы кластеризации и сможете строить ансамбли моделей. Научитесь оценивать модели и работать с переобучением. Узнаете, как использовать в работе GridSearch и RandomizedSearch, Model Specific CV, Out of Bag approach.
40 часов теории
10 часов практики
- Библиотека Sklearn
- Алгоритмы классификации: линейные методы, логистическая регрессия и SVM
- Алгоритмы классификации: деревья решений
- Алгоритмы регрессии: линейная и полиноминальная
- Алгоритмы кластеризации
- Ансамблирование
- Оценка точности модели, переобучение, регуляризация
- Улучшение качества модели
- Организация проекта, составление отчётов по исследованиям
- Лабораторная работа
- Сдача промежуточного проекта
- Работа с заказчиком
- Рекомендательные системы
В этом и следующих блоках вы будете применять полученные знания в разных областях машинного обучения. Во время этого блока научитесь строить персонализированные и неперсонализированные рекомендательные системы, а также комбинировать их.
12 часов теории
8 часов практики
- Введение и классификация рекомендательных систем
- Content-based рекомендации
- Collaborative Filtering
- Неперсонализированные рекомендательные системы
- Гибридные алгоритмы
Гарантия возврата денег
У вас есть три занятия, чтобы попробовать. Если передумаете учиться, скажите — и мы вернём вам всю сумму.
Для кого этот курс
- Разработчиков
Курс даёт хорошую базу для перехода в новую область программирования. У вас появятся другие интересные задачи и возможность роста доходов
- Аналитиков
Вы получите знания ведущих экспертов отрасли, в короткие сроки углубитесь в специализацию и выйдете на следующий уровень в профессии
- Математиков
Найдёте применение знаниям в математике и сможете перейти в новую сферу
Как проходит обучение
- Занятия онлайн или в Кампусе
Каждый из модулей программы можно пройти онлайн или присоединиться к очной группе в московском Кампусе Нетологии на Бауманской
- Практика
Занятия включает в себя практические, индивидуальные и командные задания. Также есть возможность оттачивать навыки на лабораторных занятиях и хакатоне
- Общение с экспертами
Эксперты курса, преподаватели и менторы всегда открыты для дополнительных вопросов: как в процессе обучения, так и после окончания программы
- Карьерное консультирование
Центр развития карьеры поможет с составлением резюме, подготовит к собеседованию, предложит вакансии и будет сопровождать на всех этапах поиска работы
Чтобы пройти курс, нужно уверенно владеть языком программирования Python и дружить с математикой
Подтянуть Python и вспомнить математику можно на наших курсах
Что даст вам курс:
Специалист machine learning
Достигнутые результаты
- Построена полносвязная нейросеть
- Создан чат-бот для поиска авиабилетов
- Построен классификатор изображений
- Созданы рекомендательные системы для музыкального и киносайта
- Создан готовый к внедрению ML-проект
Ключевые навыки
- Сбор и подготовка данных для анализа
- Создание нейросетей
- Генерация текстов и изображений
- Создание рекомендательных систем
- Выбор и реализация алгоритма под задачу
- Выбор и создание фич для модели
- Освоенные инструменты
- Scikit-learn
Пройдите обучение по Data Science с нуля и получите востребованную профессию.
За два года спрос на Data Scientist-ов вырос в два раза, по данным HeadHunter. Применяя методы машинного обучения, они строят прогнозы и повышают эффективность бизнес-процессов в любой отрасли. Мы поможем стать таким специалистом с нуля и найдем вам работу.
После учебы вы сможете работать по специальностям:
- Data Scientist
- Data Analyst
- Machine Learning Engineer
- Computer Vision-специалист
- NLP-специалист
Зарабатывайте в любых условиях:
- Получайте заказы на фрилансе или удаленке
- Стройте карьеру в компании или стартапе
- Развивайте свой бизнес
Гарантия трудоустройства закреплена в договоре. Если после успешного обучения, вы не найдёте работу, мы вернём вам деньги.
Почему нас выбирают:
- Живое общение
В курсе 70% вебинаров с преподавателями: вы сможете задать вопросы по теме и быстро получить обратную связь.
- Актуальная программа
Каждый месяц мы обновляем материал, чтобы вы получали актуальные знания.
- Постоянная практика
Вы сможете тренироваться на наших учебных стендах — специальной инфраструктуре, и добавите 14 кейсов в портфолио
- Методические материалы
После каждого занятия вы получите методички в формате Jupiter Notebook — это мощный инструмент для интерактивных вычислений.
У курса два формата обучения:
- живые вебинары;
- видеоколлекции в записи.
Везде предусмотрены домашние задания и их проверка преподавателем.
Программа обучения:
Наша программа одна из самых объёмных и содержательных. В то же время её легко понять, потому что знания даются постепенно: от базы к продвинутым инструментам.
- 380 часов обучающего контента и практики
- 14 проектов в портфолио
- 2 вебинара в неделю
I год
I четверть:
Программирование.
Научитесь работать в Linux и создавать сервера в облачных сервисах AWS, проводить поиск информации и основные операции с файлами, выполнять мониторинг работы сервера. Научитесь использовать язык запросов SQL, создавать и оптимизировать сложные запросы. Освоите библиотеки языка Python, предназначенные для Data Science: Numpy, Pandas, Matplotlib, SciKit-Learn.
Курсы:
- Встреча декана со студентами.
- Основы языка Python
- Знакомство с Python
- Встроенные типы и операции с ними
- Функции
- Полезные инструменты
- Работа с файлами
- Объектно-ориентированное программирование
- ООП. Продвинутый уровень
- ООП. Полезные дополнения
4 недели— 8 уроков
- Рабочая станция
- Введение. Установка ОС
- Настройка и знакомство с интерфейсом командной строки
- Пользователи. Управление Пользователями и группами
- Загрузка ОС и процессы
- Устройство файловой системы Linux. Понятие Файла и каталога
- Введение в скрипты bash. Планировщики задач crontab и at
- Управление пакетами и репозиториями. Основы сетевой безопасности
- Введение в docker
4 недели — 8 видеоуроков
- Основы реляционных баз данных и MySQL
- Вебинар. Установка окружения. DDL — команды
- Видеоурок. Управление БД. Язык запросов SQL
- Вебинар. Введение в проектирование БД
- Вебинар. CRUD-операции
- Видеоурок. Операторы, фильтрация, сортировка и ограничение. Агрегация данных
- Вебинар. Операторы, фильтрация, сортировка и ограничение. Агрегация данных
- Видеоурок. Сложные запросы
- Вебинар. Сложные запросы
- Видеоурок. Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры
- Вебинар. Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры
- Видеоурок. Оптимизация запросов. NoSQL
- Вебинар. Оптимизация запросов
6 недель — 12 уроков
- Библиотеки Python для Data Science: Numpy, Matplotlib, Scikit-learn
- Введение в курс
- Вычисления с помощью Numpy. Работа с данными в Pandas
- Визуализация данных в Matplotlib
- Обучение с учителем в Scikit-learn
- Обучение без учителя в Scikit-learn.
- Обучение без учителя в Scikit-learn и введение в итоговый проект
- Консультация по итоговому проекту
5 недель — 10 уроков
Проекты: Предсказание цен на недвижимость
II четверть:
Сбор данных и статистическое исследование.
Познакомитесь с теорией вероятностей и математической статистикой. Изучите методы проведения корреляционного, дисперсионного и регрессионного анализа. Научитесь работать с RESTful/SOAP-сервисами, форматами XML и JSON в Python, а также познакомитесь с особенностями открытых данных (OpenData).
Курсы:
- Библиотеки Python для Data Science: продолжение;
- Методы сбора и обработки данных из сети Интернет;
- Введение в математический анализ;
- Теория вероятностей и математической статистике;
Проект
- Сбор информации по заданным критериям;
- Разведочный анализ данных (EDA) на основе полученной информации;
III четверть:
Математика для Data Scientist.
Рассмотрите математические аспекты алгоритмов, применяемых в Data Science: линейная и логистическая регрессия, градиентный спуск, метод ближайших соседей, кластеризация, деревья решений, случайный лес, градиентный бустинг. Поймете, как устроены алгоритмы на уровне математики.
Курсы:
- Линейная алгебра
- Алгоритмы анализа данных
Проект:
- Построение модели кредитного скоринга для банка
IV четверть:
Машинное обучение.
Освоите Python: от основ программирования до автоматизации, сбора, обработки, анализа и визуализации данных.
Курсы:
- Машинное обучение в бизнесе
- Рекомендательные системы
- Видеокурс от Мегафон + курсовой проект
Проект:
- Рекомендательная система для интернет-магазина;
- Прогнозирование оттока абонентов;
- Алгоритм для определения вероятности подключения услуги.
II год
V четверть:
Нейронные сети.
Научитесь решать задачи Machne Learning с данными из соцсетей, геоданными, применением графов, а также познакомитесь с нейронными сетями. На практике познакомитесь с фреймворками для разработки нейронных сетей: Tensorflow, Keras, PyTorch.
Курсы:
- Введение в нейронные сети
- Фреймворк PyTorch для разработки искусственных нейронных сетей.
Проект:
Распознавание и классификация изображений.
VI четверть:
Задачи искусственного интеллекта.
Изучите продвинутые архитектуры сверточных нейронных сетей, обработку естественного языка и компьютерное зрение.
Курсы:
- Введение в обработку естественного языка
- Глубокое обучение в компьютерном зрении
Проект:
Определение эмоциональной окраски текста и классификация текстов
Приложение, которое анализирует объекты на камере
Чат-бот на основе искусственного интеллекта, который может общаться на любые темы.
II четверть:
Специализация.
Изучите фреймворк PyTorch и углубитесь в работу с компьютерным зрением и обработкой естественного языка.
Курсы:
- Введение в компьютерное зрение от Nvidia
- Фреймворк PyTorch для разработки искусственных нейронных сетей
- Введение в обработку естественного языка
Проект:
Приложение, которое анализирует объекты на камере
Чат-бот на основе искусственного интеллекта, который может общаться на любые темы.
Курсы вне четверти:
Предметы с индивидуальным выбором даты старта.
Вы можете формировать часть расписания самостоятельно и регулировать интенсивность обучения.
- Подготовка к поиску работы
- История развития искусственного интеллекта
- Алгоритмы и структуры данных на Python
- Введение в высшую математику
- Спортивный анализ данных. Платформа Kaggle
- Язык R для анализа данных
- Визуализация данных в Tableau
- Сверточные нейронные сети в компьютерном зрении
Проекты:
- Соревнование на площадке Kaggle
Вы получите диплом о профессиональной переподготовке.
По итогам курса вы:
- Изучите основные алгоритмы машинного обучения
- Выполните 500+ упражнений на закрепление материала
- Поучаствуете в хакатонах на Kaggle
Длительность: 12 недель
Формат: онлайн
Оценка курса: 4.6
Курс подойдет вам, если вы:
- Новичок
Вы начинающий Data Scientist, уверенно владеете Python, разбираетесь в математике и статистике. Вы сможете систематизировать и углубить полученные самостоятельно или на бесплатных курсах знания, пообщаться с профессионалами, применить модели Machine Learning на практике.
- Программист
Вы программируете на Python и столкнулись с задачами машинного обучения в работе. На курсе вы освоите основные алгоритмы машинного обучения, обучите рекомендательную систему и на финальном хакатоне примените все полученные навыки Machine Learning на практике.
- Аналитик
Вы аналитик со знанием Python, оперируете большим объемом данных и хотите погрузиться в Machine Learning. На курсе вы узнаете, какие задачи решает машинное обучение, примените
основные методы предобработки данных, научитесь валидировать данные и оценивать качество алгоритмов.
Из чего состоит курс:
Курс включает в себя 10 модулей, более 500 упражнений на закрепление материала, обучение 10 алгоритмов машинного обучения, 2 хакатона на kaggle, чат с сообществом и поддержку менторов.
- Отработка навыков
Каждая тема разбирается в видео, скринкастах и конспектах и закрепляется десятками упражнений (тесты, дебаггинг кода, проверка кода студента).
- Обучение моделей
На курсе по каждой теме вы работаете с моделью ML — файнтьюните, создаёте с нуля, оптимизируете, пробуете разные методы.
- Сообщество и ментор
На курсе вы не останетесь один на один с затруднениями — вам помогут не только ваши одногруппники, но и ментор курса.
Специализация Data Science состоит из курсов:
- Курс «Python для анализа данных»
- Курс по математике для Data Science
- Курс по Machine Learning
- Курс по нейронным сетям и deep learning
- Курс по Data Engineer
- Data-driven management
- Python
- Math&Stat
- Machine Learning
- Deep Learning
- Data Engineering
- Менеджмент
Программа курса «Машинное обучение»:
- Введение в машинное обучение
— Знакомимся с основными задачами и методами machine learning, изучаем практические кейсы и применяем базовый алгоритм работы над ml-проектом
— Решаем 50+ задач на закрепление темы.
- Методы предобработки данных
— Изучаем типы данных, учимся очищать и обогащать данные, используем визуализацию для предобработки и осваиваем feature engineering
— Решаем 60+ задач на закрепление темы.
- Регрессия
— Изучаем типы данных, учимся очищать и обогащать данные, осваиваем линейную и логистическую регрессию, изучаем границы применимости, аналитический вывод и регуляризацию.
— Обучаем модели регрессии
— Решаем 40+ задач на закрепление
— Решаем 60+ задач на закрепление темы.
- Кластеризация
— Осваиваем обучение без учителя, практикуемся в его различных методах, работаем с текстами средствами ML
— Решаем 50+ задач на закрепление темы.
- 5Tree-based алгоритмы: введение в деревья
— Знакомимся с решающими деревьями и их свойствами, осваиваем деревья из библиотеки sklearn и используем деревья для решения задачи регрессии
— Решаем 40+ задач на закрепление темы.
- 6Tree-based алгоритмы: ансамбли
— Изучаем особенности ансамблей деревьев, практикуемся в бустинге, используем ансамбль для построения логистической регрессии
— Решаем 40+ задач на закрепление темы
— Участвуем в соревновании на kaggle по обучению tree-based модели.
- Оценка качества алгоритмов
— Изучаем принципы разбиения выборки, недо- и переобучение, оцениваем модели по различным метрикам качества, учимся визуализировать процесс обучения
— Оцениваем качество нескольких моделей ML
— Решаем 40+ задач на закрепление темы.
- Временные ряды в машинном обучении
— Знакомимся с анализом временных рядов в ML, осваиваем линейные модели и XGBoost, изучаем принципы кросс-валидации и подбора параметров
— Решаем 50+ задач на закрепление темы.
- Рекомендательные системы
— Изучаем методы построения рекомендательных систем, осваиваем SVD-алгоритм, оцениваем качество рекомендаций обученной модели
— Решаем 50+ задач на закрепление темы.
- Финальный хакатон
— Применяем все изученные методы для получения максимальной точности предсказаний модели на Kaggle.
На курсе обучение не заканчивается.
- Развитие карьеры и бизнеса: 10 Jupyter ноутбуков, много готового кода для работы.
Помощь с трудоустройством и стажировкой.
- Сообщество: Тусовка специалистов и полезные знакомства.
- Сертификат школы SkillFactory: Сертификат о прохождении курса. При необходимости на английском языке.
Продвинутые приемы и кейсы для практикующих Data Scientist-ов, желающих повысить свой профессиональный уровень до Middle/Senior.
Длительность обучения: 5 месяцев, 4 часа в неделю.
Формат: online
Что даст вам этот курс?
- Вы освоите продвинутые приемы машинного обучения, которые позволят вам уверенно себя чувствовать на ведущих Middle/ Senior позициях и справляться даже с нестандартными задачами.
- Вы расширите свой набор доступных для работы инструментов. При этом даже для таких тем, как Байесовские методы и обучение с подкреплением, которые обычно преподаются исключительно в виде теории, мы подобрали реальные рабочие кейсы из наших практик.
- Отдельный модуль посвящен работе в production: настройке окружения, оптимизации кода, построению end-to-end пайплайнов и внедрению решений.
- Карта курсов направления Data Science в OTUS
- Особенный подход к практическим занятиям
Почти каждый такой вебинар проходит в формате Live coding, где преподаватель начинает с «чистого листа» — пустого Jupyter ноутбука, имея на руках лишь задачу и набор данных. Мы программируем, ошибаемся, обсуждаем, исправляем ошибки и получаем решение с нуля, чтобы вы видели реальный процесс работы с данными, а не стерильные готовые ноутбуки.
- Разносторонние проектные задания
В течение курса вы выполните несколько практических заданий для закрепления навыков по пройденным темам. Каждое такое задание представляет собой практический проект по анализу данных, который решает конкретную прикладную задачу машинного обучения.
Для кого этот курс?
Для аналитиков, программистов и дата сайентистов, практикующих машинное обучение. Курс поможет расширить свои возможности и продвинуться дальше по карьерному пути.
После прохождения курса вы сможете:
- Настраивать окружение и писать production код, готовый к внедрению
- Работать с AutoML подходами и понимать ограничения в их применении
- Понимать и уметь применять Байесовские методы и обучение с подкреплением для соответствующих задач
- Решать нестандартные проблемы, возникающие в рекомендательных системах, временных рядах и графах
Необходимые знания:
- Python на уровне «писал свои небольшие проекты»
- Знакомство с экосистемой для машинного обучения (pandas, numpy, sklearn)
- Знание и понимание базовых принципов и алгоритмов машинного обучения
- Знания математического анализа (вычисление производных сложных функций)
- Знания линейной алгебры (матричные операции и собственные вектора)
- Знания теории вероятностей и мат. статистики (понимание дисперсии, мат. ожидания, законы распределений).
Программа обучения:
В процессе обучения вы получите комплексные знания и навыки.
Модуль 1. Advanced Machine Learning. AutoML
Тема 1. Production Code проекта на примере задачи классификации/регрессии, Virtual environments, dependency management, pypi/gemfury
Тема 2. Практическое занятие — Оптимизация кода, parallelization, multiprocessing, ускорение pandas, Modin для Pandas
Тема 3. Advanced Data Preprocessing. Categorical Encodings
Тема 4. Featuretools — а вы что, за меня и признаки придумывать будете?
Тема 5. H2O и TPOT — а вы что, за меня и модели строить будете?
Модуль 2. Production
Тема 6. Практическое занятие — Построение end-to-end пайплайнов и сериализация моделей
Тема 7. REST-архитектура: Flask API
Тема 8. Docker: Структура, применение, деплой
Тема 9. Kubernetes, контейнерная оркестрация
Тема 10. Практическое занятие по работе в проде: деплой докера в AWS
Модуль 3. Временные ряды
Тема 11. Извлечение признаков. Fourier и Wavelet transformation, Automatic Feature generation — tsfresh
Тема 12. Unsupervised подходы: Кластеризация временных рядов
Тема 13. Unsupervised подходы: Сегментация временных рядов
Модуль 4. Рекомендательные системы. Задача ранжирования
Тема 14. Рекомендательные системы 1. Explicit feedback
Тема 15. Рекомендательные системы 2. Implicit feedback
Тема 16. Задача ранжирования — Learning to rank
Тема 17. Практическое занятие по рекомендательным системам. Surpsise!
Тема 18. Q&A
Модуль 5. Графы
Тема 19. Введение в графы: основные понятия. NetworkX, Stellar
Тема 20. Анализ графов и интерпретация. Community Detection
Тема 21. Link Prediction и Node Classification
Тема 22. Практическое занятие: Хейтеры в Twitter
Модуль 6. Bayesian Learning, PyMC
Тема 23. Введение в вероятностное моделирование, апостериорные оценки, сэмплирование
Тема 24. Markov Chain Monte-Carlo (MCMC), Metropolis–Hastings
Тема 25. Байесовское АB тестирование
Тема 26. Generalized linear model (GLM) — байесовские регрессии, вывод апостериорных оценок коэффициентов
Тема 27. Практическое занятие по GLM
Тема 28. Байесовская логит-регрессия
Тема 29. Практическое занятие по логит-регрессии
Модуль 7. Reinforcement Learning
Тема 30. Введение в обучение с подкреплением
Тема 31. Multi-armed bandits для оптимизации AB тестирования, от теории — сразу в бой
Тема 32. Практическое занятие: Multi-armed bandits в ecommerce: search оптимизация
Тема 33. Markov Decision Process, Value function, Bellman equation
Тема 34. Value iteration, Policy iteration
Тема 35. Практическое занятие: медицинский кейс Markov Chain Monte Carlo
Тема 36. Temporal Difference (TD) и Q-learning
Тема 37. SARSA и Практическое занятие: финансовый кейс TD и Q-learning
Тема 38. Q&A
Модуль 8. Проектная работа
Тема 39. Консультация по проекту, выбор темы
Тема 40. Бонус: Поиск Data Science работы
Тема 41. Защита проектных работ
Выпускной проект:
Мы стремимся, чтобы студенты самостоятельно выбирали темы для выпускных проектов, а не работали по шаблонным заготовкам. В результате все работы получаются уникальными исследовательскими проектами по машинному обучению, о которых с большим интересом можно рассказывать во время собеседований или даже публиковать статьи.
Примеры проектов, которые студенты делали на курсе Machine Learning. Professional :
— Как сделать тематическое моделирование форума быстро или что беспокоит людей с целиакией
— Анализируем шедевры живописи с помощью классического ML
Процесс обучения:
Образовательный процесс происходит ONLINE в формате вебинаров (язык преподавания — русский). В рамках курса слушателям предлагаются к выполнению домашние задания, которые позволяют применить на практике знания, полученные на занятиях. По каждому домашнему заданию преподаватель дает развернутый фидбек. В течение всего учебного процесса преподаватель находится в едином коммуникационном пространстве с группой, т. е. при обучении слушатель может задавать преподавателю уточняющие вопросы по учебным материалам.
Машинное обучение — один из самых востребованных разделов компьютерных наук. Именно с помощью машинного обучения сейчас удаётся строить рекомендательные системы для видео, прогнозировать спрос на тысячи товаров и автоматически обрабатывать огромные потоки писем в службе поддержки.
Мы ожидаем, что слушатели владеют языком Python, который является де-факто стандартным инструментом для анализа данных: знают про условные операторы, циклы, функции, разбираются в числовых и строковых типах данных, умеют работать со списками и словарями, знают встроенные функции языка. Также знакомы с высшей математикой:
математический анализ (дифференцирование функций одной и многих переменных, интегрирование, разложение в ряд Тейлора, исследование функции на экстремумы); линейная алгебра (умение работать с матрицами — умножать, складывать, решать матричные уравнения, матричные инварианты: определитель, собственные числа и собственные значения, матричные разложения (SVD); теория вероятностей и математическая статистика (основные распределения и их свойства (нормальное, равномерное, экспоненциальное, биномиальное), математическое ожидание и дисперсия, центральная предельная теорема и закон больших чисел).
Чему научитесь:
- Узнаете, как работают классические алгоритмы машинного обучения
- Изучите основные виды моделей
- Научитесь обрабатывать данные и проводить их первичный анализ
Программа:
Что узнаете за 16 недель обучения
Занятия проходят раз в неделю. Каждое занятие состоит из теоретической и практической части. На теоретической части преподаватель объясняет, как работают методы машинного обучения, какие математика и алгоритмы за ними стоят. На практической части слушатели работают с данными и решают реальные задачи с помощью Python и его библиотек. После каждого пройденного раздела выдаётся домашнее задание, которое поможет закрепить полученные навыки.
- Введение в машинное обучение
Основные типы задач, процесс обучения и валидации модели. Градиентные методы обучения
- Линейные методы машинного обучения
Линейная регрессия. Линейная классификация и метрики качества классификации. Логистическая регрессия
- Продвинутые методы машинного обучения
Работа с категориальными признаками и текстами. Решающие деревья и другие нелинейные алгоритмы. Бэггинг и случайные леса. Градиентный бустинг. Градиентный бустинг: имплементации
- Работа с признаками и другие задачи машинного обучения
Отбор признаков и понижение размерности. Кластеризация и визуализация. Статистика в машинном обучении. Соревнования в машинном обучении
Документ при успешном завершении обучения.
Кому подойдет этот курс:
- Разработчикам
Вы программируете, но хотите расширить профессиональные возможности и получить практические навыки в машинном обучении? Вы научитесь строить модели машинного обучения и нейронные сети, правильно использовать инструменты для работы с большими данными.
- Аналитикам
Хотите освоить машинное обучение, чтобы решать более сложные и интересные аналитические задачи?
Вы научитесь строить модели машинного обучения и использовать инструменты работы с большими данными для решения ваших задач.
Что входит в программу:
- 8 занятий
Погружение в машинное обучение: 32 часа лекций и семинаров, 48 часов на самостоятельную работу. - 7 домашних заданий
На каждом занятии вы будете решать квизы, а каждую неделю вас ждут домашние задания для отработки новых знаний на практике. - Финальный проект
Вы самостоятельно реализуете проект и получите обратную связь от наставников. Финальное испытание – защита проекта.
Чему вы научитесь:
Часть 1. Классическое машинное обучение
Вы научитесь строить модели машинного обучения, решать задачи регрессии и классификации, создавать ансамбли решающих деревьев, а аббревиатуры RF, GBDT, XGBoost и LightGBM станут родными и понятными.
Введение в машинное обучение и библиотеки ML для Python
Уже на первом занятии вы научитесь:
- Совершать базовые операции с данными в numpy,
- Cтроить графики функций с matplotlib,
- Оптимизировать функции с scipy,
- Визуализировать данные с seaborn.
А еще вы построите свою первую модель с помощью sklearn!
Линейные модели, регуляризация, SVM, метрики качества
Простым и понятным языком расскажем про:
- Применение алгоритмов Scikit-learn к синтетическому набору данных и к данным соревнования Kaggle Inclass (классификация, регрессия),
- Логистическую регрессию и обучение моделей с помощью SGD,
- Метод опорных векторов (Support Vector Machine) и ядра,
- Настройку параметров и кросс-валидацию,
- Предобработку данных (строки, пропуски, категориальные признаки).
Деревья
На занятии вы научитесь:
- Обучать деревья на наборах данных (MNIST, UCI, кредитный скоринг),
- Визуализировать деревья,
- Работать с признаками и пропущенными значениями в деревьях,
- Оценивать время работы и «стричь» деревья (прунинг).
Ансамбли решающих деревьев
По итогам этого занятия вы освоите:
- Общие методы построения композиций: усреднение, бустинг, блендинг, стекинг,
- Бустинг и GBM,
- Выбор параметров в ансамблях решающих деревьев, сравним Random Forest и GBDT с демонстрацией,
- Связь между ответами моделей и качеством модели в бэггинге,
- Bias-variance trade-off на примере бэггинга и бустинга. Обсудим преимущества и недостатки RF и GBDT, разберем XGBoost и LightGBM
Часть 2. Нейронные сети и Deep learning
Вы познакомитесь с нейронными сетям (Deep learning) и Unsupervised learning, а также поработаете с большими данными. На протяжении этой части курса вы будете работать над итоговым проектом при поддержке наставников. Вы сможете реализовать собственный проект или проект, который предложат кураторы курса.
Нейронные сети и введение в глубокое обучение (Deep learning)
Продолжаем погружаться в машинное обучение и знакомимся с нейронными сетями и Deep learning:
- Нейронные сети и сверточные нейронные сети, общие веса, локальность иерархичность,
- Слои в сверточных сетях, функции потерь для классификации, регуляризация нейросетей,
- Эффективные методы вычисления градиентов, проверка реализации разностным дифференцированием.
Deep Learning: CNN, RNN, Attention
На этом занятии разберем:
- Рекуррентные нейронные сети в задаче анализа сигналов и естественного языка,
- Генеративные модели на основе RNN,
- Механизм внимания (Attention mechanism) в задаче машинного перевода и других задачах,
- Сверточные нейронные сети в задачах обработки текста, сравнение с рекуррентными нейронными сетями,
- DNN на практике: инициализация, предобработка данных, модельный зоопарк, дообучение, вычисления на видеокартах, визуализация.
Обучение без учителя (Unsupervised learning)
Самое время для Unsupervised learning:
- Разберемся с определением координат дома и работы по GPS-треку (определение регулярных координат с помощью DBSCAN).
- Освоим метод главных компонент на практике,
- Научимся применять PCA и tSNE для визуализации данных, сжатия данных и предобработки датасета.
Погружение в большие данные (Big Data)
Изучите основы работы с большими данными: Hadoop, HDFS, MapReduce, Spark и многое другое!
Защита проекта
Финальное испытание – защита проекта, над которым вы работали на протяжении второй части курса.
На курсе дается представление об основных группах методов машинного обучения: классификации, предсказании, кластеризации, ансамблях, рекомендационных системах, глубоком обучении.
Описание:
На курсе дается представление об основных группах методов машинного обучения:
- классификации,
- предсказании,
- кластеризации,
- ансамблях,
- рекомендационных системах,
- глубоком обучении.
Практическая часть построена на использовании готовых реализаций в Spark ML или Scikit-learn для решения конкретных задач.
Цели:
- понимать ключевые концепции машинного обучения и его отличия от других методов;
- распознавать виды задач, решаемых методами машинного обучения, и выбирать подходящие методы;
- уметь оценивать построенные модели;
- уметь готовить входные данные и интерпретировать результаты, выдаваемые моделями;
- использовать готовые реализации методов машинного обучения.
Разбираемые темы:
- Задачи машинного обучения;
- Признаки и работа с ними;
- Оценка моделей;
- Методы классификации (байесовские методы, деревья решений, логистическая регрессия, метод опорных векторов, нейронные сети);
- Методы прогнозирования (линейная регрессия, CART, байесовские методы);
- Методы кластеризации (иерархические, спектральные, разделение смесей, LDA);
- Ансамбли (бэггинг, случайные леса, бустинг, стэкинг);
- Рекомендационные системы;
- Глубокое обучение (Ограниченные машины Больцмана, конволюционные сети, LSTM).
После окончания курса выдаётся сертификат на бланке Luxoft Training.
О программе:
Программа специализации состоит из пяти курсов. Вы освоите работу с данными от и до — сбор, оценка, обработка, результаты.
Вы научитесь:
- формулировать задачи анализа данных, относящиеся к разным классам машинного обучения;
- использовать разные алгоритмы и классы моделей машинного обучения для решения прикладных задач;
- с помощью статистических методов строить корректные выводы по полученным данным.
- В программе обучение с учителем, обучение без учителя, решающие деревья, случайные леса, кросс-валидация и многое другое.
Программа заканчивается выполнением практического проекта — вы самостоятельно решите большую аналитическую задачу.
Узнайте, как применять машинное обучение (МО), искусственный интеллект (ИИ) и глубокое обучение (ГО) в бизнесе, чтобы получать новые аналитические выводы и возможности для получения прибыли. Изучите реальные примеры и практические курсы, основанные на проблемах, которые мы решили в Amazon с помощью машинного обучения. Получите доступ к более чем 65 цифровым курсам (многие из них бесплатные).
Разработчик
На основе облака AWS. Создана для разработчиков и технических специалистов Amazon.
- Twitch Series: AWS Power Hour Machine Learning
Базовый уровень
Узнайте от сотрудников AWS и специально приглашенных гостей, как создавать приложения с использованием сервисов искусственного интеллекта (ИИ) AWS. Для разработчиков без опыта в области машинного обучения.
Удаленное обучение | 8 часов
- AWS Foundations: Machine Learning Basics
Базовый уровень
Ознакомьтесь с обзором всех концепций, всей терминологии и всех процессов увлекательной сферы машинного обучения!
Удаленное обучение | 30 минут
- Готовность к экзамену: AWS Certified Machine Learning – Specialty
Средний
Подготовьтесь к экзамену AWS Certified Machine Learning – Specialty, с помощью которого вы сможете подтвердить свою компетенцию в области создания, внедрения, развертывания и поддержки решений машинного обучения (МО).
Удаленное обучение | 4,5 часа
- Конвейер машинного обучения
Средний
Узнайте, как использовать конвейер машинного обучения (МО), чтобы решать реальные бизнес-проблемы в среде проектного обучения. Узнайте о каждом этапе конвейера и примените свои знания для завершения проекта.
Аудиторное обучение | 4 дня
Специалист по работе с данными
Изучите основы работы в области науки о данных и ознакомьтесь с понятием готовности данных в контексте машинного обучения.
- The Elements of Data Science
Средний
Принципы создания и постоянного улучшения моделей машинного обучения. Изучите формулировку проблемы, исследовательский анализ данных, разработку функций, обучение модели, настройку и отладку, а также оценку и развертывание модели.
Удаленное обучение | 8 часов
- ML Building Blocks: Services and Terminology
Базовый уровень
В рамках этих двух курсов вы ознакомитесь со стеком, терминами и процессами машинного обучения, что поможет вам создать крепкую базу для понимания машинного обучения.
Удаленное обучение | 40 минут
- Practical Data Science with Amazon SageMaker
Средний
Узнайте, как разработать реальный пример использования с помощью машинного обучения и получить практические результаты благодаря Amazon SageMaker.
Аудиторное обучение | 1 день
- Готовность к экзамену: AWS Certified Machine Learning – Specialty
Средний
Подготовьтесь к экзамену AWS Certified Machine Learning – Specialty, с помощью которого вы сможете подтвердить свою компетенцию в области создания, внедрения, развертывания и поддержки решений машинного обучения (МО).
Удаленное обучение | 4,5 часа
Инженер платформ данных
Узнайте, как архитектура, данные и хранилища поддерживают создание продвинутых моделей машинного обучения и аналитические рабочие нагрузки.
- ML Building Blocks: Services and Terminology
Базовый уровень
В рамках этих двух курсов вы ознакомитесь со стеком, терминами и процессами машинного обучения, что поможет вам создать крепкую базу для понимания машинного обучения.
Удаленное обучение | 40 минут
- Big Data on AWS
Средний
Познакомьтесь с облачными решениями для работы с большими данными, например Amazon Elastic MapReduce (EMR), Amazon Redshift, Amazon Kinesis, сервисами AWS для анализа данных.
Аудиторное обучение | 3 дня
(виртуальное участие или личное присутствие)
- Twitch Series: AWS Power Hour Machine Learning
Базовый уровень
Узнайте от сотрудников AWS и специально приглашенных гостей, как создавать приложения с использованием сервисов искусственного интеллекта (ИИ) AWS. Для разработчиков без опыта в области машинного обучения.
Удаленное обучение | 8 часов
Ответственный за принятие решений
Реальное представление о машинном обучении, искусственном интеллекте и глубоком обучении.
- AWS Foundations: Machine Learning Basics
Базовый уровень
Ознакомьтесь с обзором всех концепций, всей терминологии и всех процессов увлекательной сферы машинного обучения!
Удаленное обучение | 30 минут
- Основы машинного обучения для лиц, принимающих решения о направлении развития бизнеса и технологий
Базовый уровень
Эти курсы, разработанные для руководителей бизнеса и технических специалистов, охватывают все вопросы машинного обучения, которые требуется знать чтобы планировать стратегию развития машинного обучения в организации.
Удаленное обучение | 90 минут
- Помощь машинного обучения в решении бизнес-задач
Базовый уровень
Машинное обучение предлагает совершенно новые способы решения задач бизнеса, однако требует масштабного мышления.
Удаленное обучение | 60 минут
- Demystifying AI/ML/DL
Базовый уровень
Пройдя эти курсы, вы узнаете, как в результате появления искусственного интеллекта было разработано машинное обучению, а позже – глубокое обучение.
Удаленное обучение | 45 минут
Курс посвящён основам анализа данных и машинного обучения. По результатам слушатели освоят способы предобработки и визуализации данных, изучат основные методы машинного обучения (линейные, метрические, решающие деревья и их композиции), научатся оценивать качество моделей. Курс пригодится всем, кто хочет «с нуля» погрузиться в область машинного обучения, получить первые практические навыки и начать применять их для решения собственных задач по извлечению пользы из данных.
Формат
Курс состоит из 11 недель, каждая включает в себя несколько коротких видеолекций (суммарная продолжительность — от 60 до 90 минут), тест на знание теоретического материала (5-15 вопросов), а также тест, включающий в себя выполнение задания по программированию. На некоторых неделях задание по программированию заменено заданием на взаимное оценивание. В конце курса предусмотрен итоговый экзамен, состоящий из тестов.
Информационные ресурсы
Python, библиотеки numpy, pandas, matplotlib, seaborn, scikit-learn
Требования
Освоение школьного курса математики, навыки программирования на Python
Программа курса
- Основные понятия и задачи в машинном обучении
- Метод k ближайших соседей
- Линейная регрессия
- Градиентный спуск
- Линейная классификация
- Логистическая регрессия и метод опорных векторов
- Решающие деревья
- Бэггинг и случайный лес
- Градиентный бустинг
- Обучение без учителя
- Рекомендательные системы
Программа подходит людям, незнакомым с анализом данных. Серия курсов постепенно, от простого к сложному, погружает в предмет. В первом курсе рассказывается о математическом аппарате и основах программирования на Python.
Вам будет намного легче учиться, если вы уже знакомы с математической статистикой (программа алгебры старших классов — теория вероятности, линейные уравнения), а также с синтаксисом языка Python.
ПРОГРАММА ОБУЧЕНИЯ:
5 КУРСОВ + ДИПЛОМНЫЙ ПРОЕКТ
среднее время прохождения программы 6-9 месяцев
3-6 часов в неделю, дистанционное участие
1 КУРС «МАТЕМАТИКА И PYTHON ДЛЯ АНАЛИЗА ДАННЫХ»
- НЕДЕЛЯ 1
Введение.
- НЕДЕЛЯ 2
Библиотека Python и линейная алгебра.
- НЕДЕЛЯ 3
Оптимизация и матричные разложения.
- НЕДЕЛЯ 4
Случайность
Анализ данных и машинное обучение опираются на результаты из математического анализа, линейной алгебры и теории вероятностей. Без фундаментальных знаний по этим наукам невозможно понять методы анализа данных.
Первый курс сформирует этот фундамент. Мы без сложных формул и доказательств раскроем смысл математических понятий и объектов.
2 КУРС «ОБУЧЕНИЕ НА РАЗМЕЧЕННЫХ ДАННЫХ»
- НЕДЕЛЯ 1
Машинное обучение и линейные модели.
- НЕДЕЛЯ 2
Линейные модели и оценка качества.
- НЕДЕЛЯ 3
Решающие деревья и композиции моделей.
- НЕДЕЛЯ 4
Нейронные сети и обзор методов.
Обучение на размеченных данных или обучение с учителем — это возможность предсказать величину для любого объекта, имея конечное число примеров. Например, уровень пробок на участке дороги, возраст пользователя по его действиям в интернете, цену на подержанную машину. На этом курсе вы научитесь формулировать и решать такие задачи.
3 КУРС «ПОИСК СТРУКТУРЫ В ДАННЫХ»
- НЕДЕЛЯ 1
Методы кластеризации.
- НЕДЕЛЯ 2
Понижение размерности и матричные разложения.
- НЕДЕЛЯ 3
Визуализация данных и поиск аномалий.
- НЕДЕЛЯ 4
Тематическое моделирование.
Из курса вы узнаете об алгоритмах кластеризации данных, с помощью которых можно искать группы схожих клиентов мобильного оператора. Вы научитесь строить матричные разложения и решать задачу тематического моделирования, понижать размерность данных, искать аномалии и визуализировать многомерные данные.
4 КУРС «ПОСТРОЕНИЕ ВЫВОДОВ ПО ДАННЫМ»
- НЕДЕЛЯ 1
Основы статистики и проверка гипотез.
- НЕДЕЛЯ 2
АБ-тесты: основы планирования, дизайн и интерпретация результатов.
- НЕДЕЛЯ 3
Анализ зависимостей.
- НЕДЕЛЯ 4
Скоринг, биоинформатика.
Влияет ли знание методов анализа данных на уровень заработной платы? Работает ли система оценки кредитоспособности клиентов банка? Действительно ли новый баннер лучше старого? Чтобы ответить на такие вопросы, нужно собрать данные. 99% данных содержат «шум», поэтому выводы на их основе не верны, а только вероятны. На этом курсе вы научитесь строить корректные выводы, оценивать параметры, проверять гипотезы и устанавливать причинно-следственные связи.
5 КУРС «ПРИКЛАДНЫЕ ЗАДАЧИ АНАЛИЗА ДАННЫХ»
- НЕДЕЛЯ 1
Бизнес-задачи.
- НЕДЕЛЯ 2
Анализ медиа.
- НЕДЕЛЯ 3
Анализ текстов.
- НЕДЕЛЯ 4
Рекомендации и ранжирование.
В этом курсе мы разберем прикладные задачи из различных областей анализа данных: анализ текста и информационный поиск, коллаборативная фильтрация и рекомендательные системы, бизнес-аналитика, прогнозирование временных рядов.
Вы научитесь сводить задачу заказчика к формальной постановке задачи машинного обучения и поймёте, как проверять качество построенной модели на исторических данных и в онлайн-эксперименте. На каждой задаче мы изучим плюсы и минусы пройденных алгоритмов машинного обучения.
ФИНАЛЬНЫЙ КУРС
«АНАЛИЗ ДАННЫХ: ФИНАЛЬНЫЙ ПРОЕКТ»
Финальный проект даст вам возможность проверить свои силы и применить полученные в рамках специализации знания к задаче из реального мира. Вы самостоятельно сможете поработать над актуальным проектом в одной из областей: электронная коммерция, социальные медиа, информационный поиск и бизнес-аналитика.
Проекты:
- ИДЕНТИФИКАЦИЯ ИНТЕРНЕТ-ПОЛЬЗОВАТЕЛЕЙ
- ПРОГНОЗИРОВАНИЕ ОТТОКА КЛИЕНТОВ
- ПРОГНОЗИРОВАНИЕ ВРЕМЕННЫХ РЯДОВ НА КАРТЕ
- АНАЛИЗ ТОНАЛЬНОСТИ ОТЗЫВОВ
Программа
В течение семестра каждый учащийся должен успешно пройти как минимум три курса. Например, если в основной программе их два, то необходимо выбрать какой-нибудь из спецкурсов.
Знания проверяются в первую очередь с помощью домашних заданий — экзамены и контрольные проводятся только по некоторым предметам.
Первый семестр
Обязательные
- Алгоритмы и структуры данных, часть 1
- Сложность и модели вычислений. Анализ учетных стоимостей (начало)
- Анализ учетных стоимостей (окончание)
- Алгоритмы Merge-Sort и Quick-Sort
- Порядковые статистики. Кучи (начало)
- Кучи (окончание)
- Хеширование
- Деревья поиска (начало)
- Деревья поиска (продолжение)
- Деревья поиска (окончание). Система непересекающихся множеств
- Задачи RMQ и LCA
- Структуры данных для геометрического поиска
- Задача о динамической связности в ненаправленном графе
- Обучение языку C++, часть 1
С++ — мощный язык с богатым наследием. Тем, кто только ступил на путь освоения этого языка, очень просто заблудиться в изобилии техник и приёмов, созданных за последние 30 лет. Курс учит «Modern C++» — современному подмножеству языка (стандарты 11, 14 и 17). Много внимания уделяется инструментам и библиотекам — вещам которые не являются частью языка, но без которых не получится построить большой и сложный проект.
- Введение в С++.
- Константы. Указатели и ссылки. Передача аргументов в функцию.
- Классы.
- Динамическое управление памятью.
- Переменные, указатели и ссылки.
- Управление памятью, умные указатели, RAII.
- Стандартная библиотека шаблонов.
- Наследование и виртуальные функции.
- Обработка ошибок.
- Паттерны проектирования.
- Пространства имен Move‑семантика Perfect forwarding.
- Представление структур и классов в памяти. Выравнивание данных. Указатели на члены/методы класса. Variadic templates.
- Машинное обучение, часть 1
- Основные понятия и примеры прикладных задач
- Метрические методы классификации
- Логические методы классификации и решающие деревья
- Градиентные линейные методы классификации
- Метод опорных векторов
- Многомерная линейная регрессия
- Нелинейная и непараметрическая регрессия, нестандартные функции потерь
- Прогнозирование временных рядов
- Байесовские методы классификации
- Логистическая регрессия
- Поиск ассоциативных правил
Второй семестр
Обязательные
- Машинное обучение, часть 2
- Нейросетевые методы классификации и регрессии
- Композиционные методы классификации и регрессии
- Критерии выбора моделей и методы отбора признаков
- Ранжирование
- Обучение с подкреплением
- Обучение без учителя
- Задачи с частичным обучением
- Коллаборативная фильтрация
- Тематическое моделирование
На выбор
- Алгоритмы и структуры данных, часть 2
- Обход в ширину. Обход в глубину (начало)
- Обход в глубину (продолжение)
- Обход в глубину (окончание). 2-разрезы
- Поиск кратчайших путей (начало)
- Поиск кратчайших путей (продолжение)
- Минимальные остовные деревья
- Минимальные разрезы. Поиск подстрок (начало)
- Поиск подстрок (продолжение)
- Поиск подстрок (окончание)
- Суффиксные деревья (начало)
- Суффиксные деревья (окончание). Суффиксные массивы (начало)
- Суффиксные массивы (окончание)
- Длиннейшие общие подстроки. Приближенный поиск подстрок.
или
- Язык Python
- Основы языка (часть 1)
- Основы языка (часть 2)
- Объектно-ориентированное программирование
- Обработка ошибок
- Оформление и тестирование кода
- Работа со строками
- Модель памяти
- Функциональное программирование
- Обзор библиотек (часть 1)
- Обзор библиотек (часть 2)
- Параллельные вычисления в Python
- Расширенная работа с объектами
или
- Обучение языку C++, часть 2
Вторая часть курса по С++, в которой разбираются продвинутые темы и возможности языка.
- Многопоточное программирование. Синхронизация потоков с использованием мьютексов и условных переменных.
- Атомарные переменные. Модель памяти С++. Примеры лок-фри структур данных.
- Продвинутые техники мета-программирования в С++. Метафункции, SFINAE, концепты.
- Конкурентное программирование, взаимодействие с сетью.
- Архитектура llvm. Работа с синтаксическим деревом разбора С++. Разработка инструментов для анализа С++ кода.
Третий семестр
На выбор
- Natural Language Processing
или - Компьютерное зрение
- Цифровое изображение и тональная коррекция
- Основы обработки изображений
- Совмещение изображений
- Классификация изображений и поиск похожих
- Сверточные нейросети для классификации и поиска похожих изображений
- Детектирование объектов
- Семантическая сегментация
- Перенос стиля и синтез изображений
- Распознавание видео
- Разреженная трёхмерная реконструкция
- Плотная трёхмерная реконструкция
- Реконструкция по одному кадру и облакам точек, параметрические модели
или
- Байесовские методы в машинном обучении
- Байесовский подход к теории вероятностей
- Аналитический байесовский вывод
- Байесовский способ выбора модели
- Автоматическое определение релевантности
- Метод релевантных векторов для задачи классификации
- Вероятностные модели с латентными переменными
- Вариационный байесовский вывод
- Байесовская модель разделения смеси гауссиан
- Методы Монте-Карло с марковскими цепями
- Латентное размещение Дирихле
- Гауссовские процессы для регрессии и классификации
- Непараметрические байесовские методы
Четвёртый семестр
Обязательные
- ML Engineering Practice
Курс представляет собой проектную работу по разработке ML-проектов в командах.
- ML Research Practice
Курс представляет собой работу над командными исследовательскими проектам в области машинного обучения.
Разберём основные понятия в машинном обучении, научим подбирать команду и управлять проектами в области анализа данных. Вас ждут 4 недели лекций онлайн, вебинары, реальные кейсы, общение с преподавателями, выпускной проект и сертификат по итогам курса.
- Коротко о программе
Формат курса позволяет легко освоить новые знания. Мы заранее записали лекции и удобно структурировали их по темам, к каждому занятию подготовили дополнительные материалы и тесты. Раз в неделю преподаватели будут проводить вебинары: расскажут, как заполнять паспорт проекта и ответят на все ваши вопросы.
- Ваши навыки после обучения:
- Управление проектами с применениям машинного обучения и искусственного интеллекта
- Знание методологии Cross-Industry Standard Process for Data Mining — межотраслевого стандартного процесса для исследования данных
- Организация инфраструктуры и безопасности в проектах по машинному обучению
- Подбор персонала в проекты по машинному обучению
- Умение строить и проверять гипотезы
- Программа курса
Формат курса позволяет легко освоить новые знания. Мы заранее записали лекции и удобно структурировали их по темам, к каждому занятию подготовили дополнительные материалы и тесты. Раз в неделю преподаватели будут проводить вебинары: расскажут, как заполнять паспорт проекта и ответят на все ваши вопросы.
Неделя 1
- Введение в Machine Learning (ML)
- Что такое машинное обучение и какие задачи оно решает
- Виды задач машинного обучения
- Сложные модели. Бустинг и нейронные сети
- CRISP-DM
Неделя 2
- Управление ML-проектом
- Фазы проекта по машинному обучению
- При каких условиях ML работает
- Чем отличается ML-проект от обычного проекта
- Инфраструктура и информационная безопасность в ML-проектах
- Где взять данные для проекта по машинному обучению
Неделя 3
- Моделирование
- Что такое моделирование
- Построение и проверка гипотез
- Feature engineering
- Особенности машинного обучения
- Тестирование моделей
Неделя 4
- Команда ML-проекта
- Команда проекта
- Типовые задачи и требования к ролям
- Где искать сотрудников
- Как отбирать сотрудников
- On Boarding
Во время обучения Вы узнаете:
Введение в машинное обучение
- Понятие «машинное обучение».
- Обоснованность использования.
- Подразделы машинного обучения.
- Обучение с учителем, обучение без учителя, обучение с подкреплением.
1,5 ак.ч.
Метод ближайших соседей (kNN)
- Описание метода kNN.
- Область решаемых задач.
- Метрики качества.
- Разбор кода с примером реализации алгоритма.
3,5 ак.ч.
Метрики и их практическое применение
- Что такое метрики.
- Метрики в задачах бинарной классификации.
- Разбор основных метрик качества для различных типов задач.
4,5 ак.ч.
Подготовка и нормализация данных
- Этапы подготовки данных.
- Понятие нормализация.
- Почему данные нужно нормализовывать.
- Уменьшение размерности – методы PCA, t-SNE.
- Разбор кода с примерами реализации метода главных компонент.
2,5 ак.ч.
Выбор атрибутов при решении задачи. Метод опорных векторов SVM
- Выбор атрибутов для анализа.
- Метод SVM, предсказание вероятности принадлежности классу.
- Суть алгоритма, линейно разделимые и неразделимые выборки.
- Плюсы и минусы алгоритма. Разбор кода с реализацией алгоритма SVM.
2,5 ак.ч.
Регрессия (прогнозирование конкретного значения)
- Задача регрессии.
- Линейная регрессия, логистическая регрессия.
- Регрессии: разбор кода с реализацией алгоритма.
4,5 ак.ч.
Decision trees, random forest
- Решающие деревья и случайный лес.
- Суть алгоритмов. Плюсы и минусы.
- Decision trees, random forest: разбор кода с реализацией алгоритма.
4,5 ак.ч.
Разбалансированные датасеты и методы их балансировки
- Понятие разбалансировки.
- Причины возникновения.
- Методы балансировки датасетов.
- Разбор кода – работа с разбалансированным датасетом.
1,5 ак.ч.
Bagging, boosting, stacking – алгоритмы повышения точности
- Цели и задачи повышения точности.
- Bagging, boosting, stacking.
- Разбор кода с реализацией алгоритмов.
3,5 ак.ч.
Кластеризация, метод k-mean. Полная и условная вероятность, теорема Байеса
- Понятие кластеризация.
- Алгоритм k-mean, c-mean.
- Полная и условная вероятность, теорема Байеса.
- Алгоритм k-mean, c-mean: разбор кода с алгоритмами кластеризации и байесовскими классификаторами.
4,5 ак.ч.
Рекомендательные системы. Персонализированные и неперсонализированные, проблема холодного старта
- Что такое рекомендательная система.
- Типы рекомендательных систем.
- Области применения.
- Понятие холодного старта.
- Рекомендательная система: разбор кода с рекомендательными системами.
5 ак.ч.
Внедрение моделей в production
- Сохранение моделей машинного обучения.
- Библиотека Flask для веб-приложений.
- Библиотека git для контроля версионности.
- Пошаговый алгоритм действий по выведению модели в Production.
- Учебный хостинг heroku.com.
5 ак.ч.
Построение модели и внедрение в Production
- Создание веб приложения – анализ сердечно-сосудистых заболеваний.
- Обучение модели и выведение в Production.
5 ак.ч.
48 ак.ч.
Кол-во часов: 18 часов
Кол-во занятий: 9 уроков
После окончания курса вы сможете:
- Проводить предобработку данных
- Взаимодействовать с алгоритмами
- Анализировать данные
- Работать с временными рядами
- Делать выборку
- Создавать рекомендательные системы
Программа курса по машинному обучению
Урок № 1 — Что такое машинное обучение?
- На первом уроке вы узнаете, какие задачи стоят перед специалистами по машинному обучению и какие инструменты они применяют в работе.
Урок № 2 — Предобработка
- На втором занятии вы познакомитесь с несколькими методами предобработки данных. Также мы выясним, каких типов данные можно встретить. Выясним, чем нам может помочь визуализация в предобработке. Познакомимся с feature engineering.
Урок № 3 — Что такое регрессия?
- Третью встречу мы посвятим изучению типов данных, попрактикуемся в их очищении и обогащении, поработаем над линейной и логической регрессией. Вы узнаете, что такое границы применимости и как можно научить модели регрессии.
Урок № 4 — Кластеризация
- Четвертая обучающая сессия будет посвящена кластеризации. Коснемся работы с текстами ML.
Урок № 5 — Деревья
- На пятом уроке вы узнаете, что такое tree-based алгоритмы. Подробно изучим свойства деревьев и научимся их применять для решения задач с регрессией.
Урок № 6 — Ансамбли
- Шестое занятие полностью посвящено ансамблям деревьев. Вы узнаете, что такое бустинг и создадите свою первую логистическую регрессию.
Урок № 7 — Оценка
- Седьмая встреча посвящена оценке качества алгоритмов. Вы узнаете, как правильно разбивать выборку и чем для нас будет полезен процесс визуализации обучения.
Урок № 8 — Временные ряды
- На восьмой обучающей сессии вы узнаете, как анализируются временные ряды в машинном обучении и познакомитесь с особенностями подбора параметров.
Урок № 9 — Работа над рекомендательными системами
- После девятого урока вы сможете построить рекомендательную систему.
По окончанию обучения вы получите сертификат, подтверждающий, что вы прослушали 9 уроков онлайн-курса по машинному обучению.
На этом курсе вы сможете освоить технологию машинного обучения и научиться применять ее для обработки информации. Вы познакомитесь с популярными алгоритмами машинного обучения и узнаете, где именно стоит их применять. Пройдя курс, вы сможете самостоятельно выбирать наиболее подходящий алгоритм, настраивать его, оценивать результаты и комбинировать с моделями.
Вы научитесь:
- применять на практике алгоритмы машинного обучения для решения аналитических задач
- выбирать оптимальный алгоритм для анализа
Специалисты, обладающие этими знаниями и навыками, в настоящее время крайне востребованы.
Программа курса
Модуль 1. Постановка задачи (6 ак. ч.)
- Принципы машинного обучения
- Алгоритмы машинного обучения
Модуль 2. Деревья решений (6 ак. ч.)
- Классическое дерево решений
- Комбинирование решающих деревьев
Модуль 3. Линейные модели (6 ак. ч.)
- Линейная регрессия
Модуль 4. Кластеризация (5 ак. ч.)
- Алгоритмы кластеризации
- Применение кластеризации
Модуль 5. Временные ряды (6 ак. ч.)
Модуль 6. Нейронные сети (6 ак. ч.)
Модуль 7. Анализ текста (5 ак. ч.)
Документы об окончании
В зависимости от программы обучения выдаются следующие документы:
- Сертификат международного образца
- Свидетельство
- Удостоверение.
Что входит в курс:
- 2 лабы
Каждую неделю вам нужно будет решить лабораторную работу и суперачивку
- 1 проект
Помимо лаб вы работаете в командах над большим проектом на протяжении всего модуля
- 7 занятий
С трансляциями в прямом эфире и видеозаписями в личном кабинете
Чему вы научитесь:
В курсе есть четыре составляющих
- Классический ML
Научитесь решать задачи регрессии и классификации при помощи различных алгоритмов машинного обучения, работая со структурированным типом данных. Узнаете, как правильно предобрабатывать и готовить данные для повышения качества прогноза моделей.
- ML на текстах
Научитесь представлять текст в векторном виде и решать задачи машинного обучения в классическом виде. Узнаете, как проводить сентимент-анализ отзывов в интернете, для чего нужен word2vec и bag of words.
- Ансамбли моделей
Научитесь создавать ансамбли из моделей, объединяя базовые классификаторы в один большой и повышая качество этой мета-модели. Узнаете, чем стэкинг отличается от блендинга, а также об их достоинствах и недостатках.
- Введение в Deep learning
Узнаете о современных достижениях в области Deep Learning и какие виды задач можно решать при помощи глубоких нейронных сетей.
Лабы этого курса:
- Лаба 1 и суперачивка
Прогнозирование оттока клиентов банка
Используя обезличенные данные клиентов банка, вам нужно будет предсказать вероятность ухода из банка каждого из них в ближайшие несколько месяцев.
- Лаба 2 и суперачивка
Похожесть текстов вакансий
В этой лабе вам нужно будет найти похожие тексты вакансий. Суперачивка — участие в соревновании на Kaggle по определению эмоциональной окраски отзывов в интернете.
Проект:
Прогнозирование пола и возрастной категории пользователей в интернете по их логам
В этом проекте вам нужно будет сделать прогноз по полу и возрастной категории пользователей на основании логов их посещения разных сайтов, решив задачу мультиклассовой классификации.
Обучение Data Science/Machine Learning — это современные методы машинного обучения и практика работы с большими данными. Ты изучишь основы науки о данных и машинного обучения, научишься обрабатывать и анализировать большие данные, а также узнаешь, как работать с ключевыми концепциями сбора, подготовки и визуализации данных.
Для кого этот курс:
Необязательно быть разработчиком, чтобы работать в сфере Data Science: это направление часто привлекает математиков и аналитиков. Курсы Data Science/Machine Learning разработаны для бизнес-аналитиков, аналитиков данных и тех, кто интересуется IT, но не хочет обучаться программированию.
Технические требования, чтобы успешно пройти обучение Data Science/Machine Learning:
- Знание основ алгебры и математической статистики
- Знание английского языка на уровне Intermediate
Программа курса:
- Вебинар
Data Science/Machine Learning — курсы онлайн-формата для комфортного обучения. Ты подключаешься к прямой трансляции в Zoom, видишь и слышишь своих одногруппников и преподавателя. Курс включает 7 интенсивных занятий, на последнем из которых ты будешь защищать свой проект. Каждую неделю мы высылаем записи вебинаров — на случай, если ты пропускаешь занятие или просто хочешь еще раз переслушать материал урока.
- Домашние задания
Почти все время трансляции посвящено практике. Чтобы закрепить полученные знания, курсы Data Science/Machine Learning предусматривают дополнительные задания на дом. Выполняя их, ты можешь прояснить непонятные моменты, лучше запомнить ключевые концепции сбора и визуализации данных, а также еще раз попрактиковать методы машинного обучения.
- Консультации ментора
Накопились проблемы с заданиями или волнуют организационные вопросы? Обращайся к ментору! Он на связи с тобой в любое время, чтобы помочь разобраться с любыми нюансами в обучении.
- Финальный проект
Курсы по Data Science/Machine Learning повысят твою квалификацию и помогут эффективнее работать с нейронными сетями и понимать все процессы и этапы Data Science. В конце обучения ты защитишь дипломный проект, чтобы продемонстрировать полученные знания.
На курсе ты научишься:
- Разбираться в основных понятиях и задачах Data Science
- Использовать в работе современные методы машинного обучения
- Применять ключевые концепции сбора, подготовки, исследования и визуализации данных
- Обрабатывать и анализировать большие данные
Data Science/Machine Learning: обучение по этапам:
- ВВЕДЕНИЕ В DATA SCIENCE И MACHINE LEARNING
- Базовые понятия Big Data, Business Intelligence, Data Mining, Data Science, Machine Learning, Artificial Intelligence
- История развития Data Science, современные перспективы
- Кто такой Data Science-специалист и какими навыками он обладает. Вопросы на собеседовании
- Обзор процесса Data Science проекта
- Сценарии использования и применения ML в современном мире
- Обзор успешных проектов по Big Data и Machine Learning
- DATA SCIENCE PROCESS AND FRAMEWORKS
- Планирование и подготовка работы
- Исторический обзор методологий ведения Data Science решений
- Детальный обзор современного Data Science процесса и его этапов
- Команда и роли специалистов в проектах Data Science
- Обзор популярных фреймворков и инструментов для Data Science решений
- Workshop 1: Этап Business Understanding
- Основы работы с системой контроля версий
- ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ
- Загрузка исходных данных для анализа в систему (ETL)
- Data cleansing and transformation
- Data Sampling and Quantization
- Workshop 2: Подготовка данных для проекта
- Подходы и методики для визуализации данных
- Практика: Визуализация данных с помощью Power BI и R
- ПРОГНОЗИРОВАНИЕ И КЛАССИФИКАЦИЯ
- Теоретический обзор проблемы и основных методов
- Введение в искусственные нейронные сети для решения различных задач
- Процесс создания реальных программных моделей для прогнозирования и классификации
- Оценка точности обученных моделей, выбор лучшей
- Workshop 3: Создание моделей прогнозирования и классификации
- КЛАСТЕРИЗАЦИЯ И РЕКОМЕНДАЦИОННЫЕ АЛГОРИТМЫ
- Теоретический обзор проблемы и основных методов
- Процесс создания реальных программных моделей для кластеризации, рекомендационных алгоритмов
- Оценка точности обученных моделей, выбор лучшей
- Введение в обработку естественного языка
- Workshop 4: Создание моделей кластеризации и рекомендационных моделей
- ИМПЛЕМЕНТАЦИЯ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ
- Временные ряды и прогнозирование событий
- Имплементация моделей машинного обучения для дальнейшего использования
- Обсуждение результатов выполнения домашних заданий
- Примеры архитектур полноценного проекта
- Workshop 5: Имплементация моделей машинного обучения
- Подведение итогов курса, презентация проектов
- Рекомендуемые материалы и шаги для дальнейшего изучения
- ЗАЩИТА КУРСОВОГО ПРОЕКТА
Бесплатный 72-часовой углублённый курс по машинному обучению в рамках проекта «Искусственный интеллект: быстрый старт с нуля» совместно со Школой цифровой экономики Дальневосточного Федерального Университета (ДВФУ) во Владивостоке
Ты получишь знания в следующих сферах:
- Data-science
- Системная аналитика
- Разработка ПО
- Chief data officer
- Инновационные стартапы в профильных областях (например, в IT-компаниях и профильных data-driven компаниях)
- А также в сфере аналитики и консалтинга в области управления, основанного на данных
О курсе
72 академических часа теории и практики (онлайн).
- Компьютерное зрение
- Обработка естественного языка
- Экспертные системы
- Предиктивная аналитика
Основной язык программирования обучающей программы — Python.
Обучение проходит на платформе CATS и YouTube канале «Русская Школа Программирования».
В программе курса ты узнаешь:
Введение. Методы оптимизации. Градиентный спуск (gradient descent)
- Основные термины машинного обучения. Задача классификации, регрессии.
- Функция потерь. Оптимизация. Перебор по сетке.
- Производная, частные производные, градиент. Методы оценки градиента.
- Градиентный спуск, проблема выбора шага.
- Стохастический градиентный спуск. Использование момента.
- Метод отжига.
- Adagrad, Adadelta, Adam.
- RMSProp*.
Линейная регрессия (linear regression)
- Постановка задачи линейной регрессии. Вероятностная интерпретация.
- Метод наименьших квадратов. Алгебраическое и оптимизационное решения.
- Ковариация, корреляция.
- Критерий R2.
- Анализ остатков. Гомоскедастичность. Квартет Анскомба.
- Решение для неквадратных и плохо обусловненных матриц.
- Регуляризация Ridge, LASSO, Elastic*.
- Обобщённые линейные модели (generalized linear models)*.
- Обобщённые аддитивные модели (generalized additive models)*.
Глобальная оптизация. Генетический алгоритм (genetic algorithm)
- Многопараметрическая оптимизация.
- Доминация и оптимальность по Парето.
- Функция качества (fitness). Аппроксимация качества.
- Общая идея генетического алгоритма.
- Представление генома.
- Методы селекции: пропорционально качеству, универсальная выборка (stochastic universal sampling), с наследием (reward-based), турнир. Стратегия элитизма.
- Методы кроссовера. Двух и много-точечный, равномерный (по подмножествам), для перестановок.
- Мутация. Влияние на скорость обучения.
- Управление популяцией. Сегрегация, старение, распараллеливание.
- Генетическое программирование*.
Метод ближайших соседей (k-NN)
- Базовый алгоритм классификации методом 1-NN и k-NN. Преимущества и недостатки.
- Кросс-валидация методом «без одного» (leave one out).
- Определение границ, показатель пограничности.
- Сжатие по данным. Понятия выброса, прототипа, усвоенной точки. Алгоритм Харта (Hart).
- Регрессия методом k-NN.
- Взвешенные соседи.
- Связь с градиентным спуском. Стохастическая формулировка, softmax.
- Метод соседних компонент (neighbour component analysis)*.
- Связь с выпуклой оптимизацией. Метод большого запаса (Large margin NN)*.
- Оптимизация классификатора, k-d деревья, Hierarchical Navigable Small World*.
- Хеши чувствительные к локальности, хеши сохраняющие локальность*.
Наивный байесов классификатор (naive Bayes)
- Условная вероятность. Байесово решающее правило. Обновление вероятностей.
- Наивный классификатор, предположение о независимости признаков.
- Оценка плотности распределения для числовых признаков.
- Эффективные алгоритмы наивного классификатора.
- Байесова оптимизация*.
- Алгоритм EM*.
Деревья решений (decision trees)
- Понятие дерева решений.
- Понятие энтропии, определение информации по Шеннону.
- Метрики: примеси Джини (Gini impurity), добавленная информация (information gain).
- Алгоритмы ID3, CART.
- Борьба с оверфиттингом: bagging, выборки признаков (random subspace method).
- Ансамбли, случайный лес (Random Forest).
- Деревья регрессии. Метрика вариации.
- Непрерывные признаки. Использование главных компонент вместо признаков.
- Сокращение дерева (pruning).
- Другие алгоритмы вывода правил: 1-rule, RIPPER, bayesian rule lists*.
- Комбинация с линейной регрессией (RuleFit)*.
Метрики и метрическая кластеризация (metrics)
- Понятие и свойства метрики. Ослабление требования к неравенству треугольника.
- Метрики L1, L2, Хемминга, Левенштейна, косинусное расстояние.
- Потеря точности нормы в высоких размерностях.
- Нормализация координат. Предварительная трансформация пространства признаков.
- Метрика Махаланобиса.
- Понятие центроида и представителя класса.
- Центроидные алгоритмы: k-means, k-medoid.
Кластеризация (clustering)
- Задача обучения без учителя, применения при эксплораторном анализе.
- Неметрическая кластеризация: функция схожести, компоненты связности и остовные деревья, иерархическая кластеризация снизу вверх.
- Алгоритмы основанные на плотности: DBSCAN, OPTICS.
- Алгоритмы основанные на распределении: сумма гауссиан.
- Нечёткая кластеризация, алгоритм c-means.
- Метрики качества: leave-one-out, силуэт, индекс Дэвиса-Болдина (Davies-Bouldin), индекс Данна (Dunn).
Снижение размерности (dimensionality reduction)
- Постановка задачи, причины и цели снижения размерности.
- Выбор и извлечение признаков.
- Подходы к выбору признаков: filtering, wrapping, embedding.
- Расстояние между распределениями. Расстояние Кульбака-Лейблера. Взаимная информация.
- Алгоритмы выбора признаков: на основе корреляции (CFS), взаимной информации, Relief.
- Метод главных компонент (PCA).
- Стохастическое вложение соседей с t-распределением (t-SNE).
- Нелинейные обобщения метода главных компонент. Kernel PCA.
- Неотрицательное матричное разложение (NMF).
- Анализ независимых компонент (ICA).
Работа с текстом (text)
- Задачи обработки текста: извлечение (extraction), поиск, классификация (тематическая, эмоциональная), перевод.
- Разбиение на слова, пунктуация, лексический и морфологический анализ.
- Определение частей речи, имён, основ слов.
- Частотный анализ, представление bag-of-words, TF-IDF и его варианты.
- N-грамы, byte-pair encoding.
- Векторные представления, семантическая интерпретация алгебраических операций.
- Унитарный код (One-hot encoding).
- Алгоритмы Word2Vec и
- Алгоритм
- Вероятностный латентно-семантический анализ (pLSA)*.
- Латентное размещение Дирихле (Latent Dirichlet allocation)*.
Композиция классификаторов. Бустинг (boosting)
- Понятие бустинга. Бустинг для бинарной классификации, регрессии.
- Градиентный бустинг.
- Алгоритм Виолы-Джонса.
- Извлечение признаков. Признаки Хаара (Haar).
- Бустинг деревьев решений. XGBoost.
- LPBoost, BrownBoost, ComBoost, CatBoost*.
Работа с изображениями (image)
- Дискретизация аналогового сигнала, теорема Котельникова.
- Понятие спектра.
- Преобразование Фурье. Дискретное косинусное преобразование (DCT).*
- Сверточные фильтры, непрерывное и дискретное определение свёртки.
- Сглаживающие фильтры. Фильтр Гаусса.
- Дифференцирующие фильтры: Roberts cross, Sobel, Prewitt, Scharr.
- Поиск границ. Алгоритм Кенни (Canny). Адаптивное сглаживание. Определение порога методом Отцу (Otsu).
- Преобразование Хафа (Hough). Оптимизация с учётом направления градиента. Обобщения на многопараметрический и многомерный случай.
Интерпретация (interpretation)
- Визуализация вклада признаков: partial dependency plot, individual conditional expectation, accumulated local effects
Курс разработан при участии практикующих data scientist’ов и лидеров рынка онлайн-обучения по направлению Data Science.
- Прокачиваем с нуля до возможности принимать участие в соревнованиях по ML.
- 2-4 часа занятий в неделю достаточно для того, чтобы завершить курс за 6 месяцев.
- Создание собственной рекомендательной системы в конце курса.
В ходе курса ты научишься:
- Программировать на Python и пользоваться встроенными библиотеками для машинного обучения и анализа данных.
- Находить закономерности в данных и визуализировать результаты анализа.
- Самостоятельно строить алгоритмы машинного обучения для решения прикладных задач.
Программа курса:
- Вводное занятие
Ты узнаешь о роли машинного обучения в современном мире и чем будешь заниматься на курсе.
- Основы Python
Всё, что нужно знать для комфортного прохождения курса.
- Анализ данных
Изучаем основные библиотеки, необходимую математику и визуализацию данных.
- Машинное обучение
Разбираем базовые алгоритмы МО на практике
- Финальный проект
Академия искусственного интеллекта для школьников не является образовательной услугой, подлежащей лицензированию, и не предполагает выдачу сертификата государственного образца.