корпоративный университет сбербанка
академия технологий и данных
Образовательные программы
для
Data Scientists
Программы обучения
Методы анализа данных и машинного обучения
Анализ временных рядов методами машинного обучения
Python
NLP
Методы анализа данных и машинного обучения
Продолжительность:
44 ак. часа

Содержание:
Модуль 1:
  • Введение и предпосылки
  • Основные определения, метрики качества и функции потерь
  • Метрические алгоритмы
Модуль 2:
  • Обзор существующих методов прогнозирования
  • Градиентные линейные модели. Задачи регрессии и классификации
  • Проблемы переобучения, недообучения. Пути решения.
  • Источники данных и препроцессинг, Kaggle
Модуль 3:
  • Логические алгоритмы классификации. Решающие деревья
  • Ансамблевые методы. Случайные леса
  • XGBoost, CatBoost, LightGBM
Модуль 4:
  • Метрики качества. Accuracy, Recall, Precision, ROC-AUC
  • Борьба с переобучением. Методы регуляризации, feature selection
  • Обзор пройденного в курсе
Модуль 5:
  • Защита проектов
  • Экзамен

Формат обучения: очный
Длительность обучения: 4 недели + экзамен
Периодичность занятий: 1 день в неделю

Расписание потоков (Кутузовский пр-т, 32):
  • 26.11.2018 - 17.12.2018 (по понедельникам), 24.12.2018 - экзамен
  • 28.11.2018 - 19.12.2018 (по средам), 26.12.2018 - экзамен
Информация по расписанию будет обновляться.
Анализ временных рядов методами машинного обучения
Продолжительность:
52 ак. часа

Содержание:
Модуль 1:
  • Вводная лекция. Анализ требований слушателей: что они ждут от курса. Основные понятия и модели. Регрессия и компоненты временного ряда. Методы декомпозиции. Стационарность Критерий KPSS. Оператор лага, дифференциирование ряда. Библиотеки для работы с TS. Реализация STL-разложения и удаления нестационарности

Модуль 2:
  • Стационарность: тесты и проверки рядов. Авторегрессия Подробнее про модели авторегрессии. Частотно-временные характеристики Использование изученных методов для проверки ряда на стационарность

Модуль 3:
  • Модели для прогнозирования временных рядов: AR, ARMA, ARIMA, SARIMAX Примеры использования моделей Применение изученных моделей для предсказания поведения временных рядов

Модуль 4:
  • Другие модели для прогнозирования: линейные модели, XGBoost Экспоненциальное сглаживание. Модель Хольта-Винтерса. Примеры использования моделей и сравнение с моделями из модуля 4 Применение изученных моделей для предсказания поведения временных рядов
Модуль 5:
  • Определение качества модели в различных подходах. Критерии Акаике и Шварца Детектирование аномалий Практическая оценка качества своих моделей и их улучшение. Практика на детектирование аномалий

Модуль 6:
  • Обзор доступных проектов Начало работы над проектом Начало работы над проектом

Модуль 7:
  • Защита проектов, обсуждение

Формат обучения: очный
Длительность обучения: 5 недель
Периодичность занятий: 1 день в неделю

Расписание потоков (Кутузовский пр-т, 32):
  • 28.09.2018 - 26.10.2018 (по пятницам).
  • Информация уточняется
Информация по расписанию будет обновляться.
Python
Продолжительность:
8 ак. часов

Содержание:
Модуль 1:
  • Основные типы данных
  • Часто используемые функции
  • Операции над числами
  • Обзор операторов управления исполнением
Модуль 2:
  • Условное исполнение
  • Итерирование
  • Работа с файлами
Модуль 3:
  • Функции
  • Модель памяти и сборщик мусора
  • Списки, кортежи
Модуль 4:
  • Операции со строками
  • Ссылки и неизменяемость
Модуль 5:
  • Слайсинг
  • Множества
  • Отображения
  • Работа с контейнерам
Модуль 6:
  • Обзор
  • ООП
  • Обработка исключений
  • Менеджер контекста
Модуль 7:
  • Лямбда-функции и замыкания
  • Функторы и декораторы
  • Списковые выражения
  • Встроенные функции высших порядков
  • Генераторы и итераторы
Модуль 8:
  • Стандартная библиотека
  • Дополнительные модули
  • Форматы данных
Формат обучения:
Обучение проходит в электронном формате на платформе Виртуальной школы.
NLP, углубленный курс
Продолжительность:
88 ак. часа
Содержание:
Модуль 1:
Пайплайн NLP. Базовые элементы пайплайна NLP. Приведение данных к формату ConllU. Современные модели POS-таггинга и морфологического анализа (на примере Anastasyev et al 2017 и Anastasyev et al 2018). POS-таггинг на основе нейросетей
Модуль 2:
Языковые модели и эмбеддинги. Простые модели текста. Простая модель поиска по запросу. Непрерывные модели слов и текста
Модуль 3:
Базовые задачи NLP. Исправление опечаток. Исправление опечаток в @900 и сбор нейросетевой модели. Извлечение именованных сущностей. Рекуррентные нейронные сети для извлечения именованных сущностей.

Модуль 4:
Классификация текстов и тематическое моделирование. Классификация и категоризация текстов (ML и DL методы). Классификация стандартных датасетов. Тематическое моделирование. эксперименты с genism, BigARTM
Модуль 5:
Синтаксис в задачах NLP. Синтаксический анализ. Использование UDPipe для построения синтаксического разбора текста (на UD). Извлечение фактов. Реализация Miwa, Bansal 2016 (пользуясь решением с NER)
Модуль 6:
Задачи генерирования текстов. Суммаризация текстов. Text Rank для суммаризации новостных научно-популярных новостей. a) Машинный перевод: Классические методы решения задачи машинного перевода. Построение word alignment matrix.
Модуль 7:
Модели класса кодировщик-декодировщик (seq2seq). seq2seq в задаче машинного перевода. Посимвольный машинный перевод. seq2seq в задачах суммаризации. Реализация pointer-generator network.
Модуль 8:
Продвинутые задачи NLP. Информационный поиск. Обучение ранжированию по стандартным датасетам.
Обзор чат-бот технологий и архитектур, модель справочного чат-бота. Сведение имеющихся решений для создания чат-бота.

Формат обучения: очный
Длительность обучения: 8 недель + экзамен
Периодичность занятий: 1 день в неделю

Расписание потоков (Кутузовский пр-т, 32):
29.11.2018 - 24.01.2019 (по четвергам), 31.01. 2018 - экзамен

Информация по расписанию будет обновляться.
Made on
Tilda