Подготовка к школе анализа данных

Обновлено: 08.07.2024

Поступить и учиться в ШАД от Яндекс – мечта многих начинающих специалистов по Data Science. Рассказываем, как это можно сделать, пройдя пять простых шагов.

Набор проходит в три этапа:

  1. Онлайн-тестирование: решение заданий теста за 5 часов;
  2. Для поступающих в московское отделение второй этап состоит из двух частей: первая – математика и алгоритмы, вторая – программирование и основы анализа данных;
  3. Заключительный этап – очное собеседование, во время которого придется решать задачи по математике, алгоритмам и программированию.

Шаг 1: Выясните, каких знаний вам не хватает

При поступлении в ШАД проверяются знания по общей программе , включающей базовые разделы высшей алгебры, математического анализа, комбинаторики, теории вероятностей, а также основы программирования и анализа данных. Оцените свои знания и начните интенсивную подготовку с практикой по темам, в которых вы еще не сильны. Для упрощения этой задачи в статье мы собрали все необходимые темы и ресурсы для их изучения.

Шаг 2: Математическая подготовка

Алгeбра

  • Определение, четность, произведение подстановок. Разложение подстановок в произведение транспозиций и независимых циклов.
  • Комплексные числа. Геометрическое изображение, алгебраическая и тригонометрическая форма записи, извлечение корней, корни из единицы.
  • Системы линейных уравнений. Прямоугольные матрицы. Приведение матриц и систем линейных уравнений к ступенчатому виду. Метод Гаусса.
  • Линейная зависимость и ранг. Линейная зависимость строк (столбцов). Основная лемма о линейной зависимости, базис и ранг системы строк (столбцов). Ранг матрицы. Критерий совместности и определенности системы линейных уравнений в терминах рангов матриц. Фундаментальная система решений однородной системы линейных уравнений.
  • Определитель квадратной матрицы, его основные свойства. Критерий равенства определителя нулю. Формула разложения определителя матрицы по строке (столбцу).
  • Операции над матрицами и их свойства. Теорема о ранге произведения двух матриц. Определитель произведения квадратных матриц. Обратная матрица, ее явный вид (формула), способ выражения с помощью элементарных преобразований строк.
  • Векторное пространство, его базис и размерность. Преобразования координат в векторном пространстве. Подпространства как множества решений систем однородных линейных уравнений. Связь между размерностями суммы и пересечения двух подпространств. Линейная независимость подпространств. Базис и размерность прямой суммы подпространств.
  • Линейные отображения, их запись в координатах. Образ и ядро линейного отображения, связь между их размерностями. Сопряженное пространство и сопряженные базисы. Изменение матрицы линейного оператора при переходе к другому базису.
  • Билинейные функции, их запись в координатах. Изменение матрицы билинейной функции при переходе к другому базису. Ортогональное дополнение к подпространству относительно симметрической билинейной функции. Связь между симметричными билинейными и квадратичными функциями. Существование ортогонального базиса для симметрической билинейной функции. Нормальный вид вещественной квадратичной функции. Закон инерции.
  • Евклидовы пространства. Неравенство Коши-Буняковского. Ортогональные базисы. Ортогонализация Грама-Шмидта. Ортогональные операторы.
  • Собственные векторы и собственные значения линейного оператора. Собственные подпространства линейного оператора, их линейная независимость. Условие диагонализируемости оператора.

Математически анализ

  • Пределы и непрерывность. Пределы последовательностей и функций. Непрерывные функции.
  • Ряды. Числовые и функциональные ряды. Признаки сходимости (Даламбера, Коши, интегральный, Лейбница). Абсолютно и условно сходящиеся ряды.
  • Дифференцирование. Дифференцирование функций. Применение производной для нахождения экстремумов функций. Формула Тейлора.
  • Функции многих переменных. Частные производные. Градиент и его геометрический смысл. Гессиан. Метод градиентного спуска. Поиск экстремумов функций от многих переменных.
  • Интегрирование. Определенный и неопределенный интегралы. Методы интегрирования функций. Первообразные различных элементарных функций. Кратные интегралы (двойные, тройные), замена координат, связь с повторными.
  • Элементы функционального анализа: нормированные, метрические пространства, непрерывность, ограниченность.

Комбинаторика

  • Основные правила комбинаторики. Правило подсчета количества комбинаторных объектов. Принцип Дирихле. Примеры.
  • Множества. Круги Эйлера, операции на множествах. Формула включений и исключений. Примеры.
  • Сочетания. Размещения, перестановки и сочетания. Бином Ньютона. Треугольник Паскаля. Сочетания с повторениями.

Теория вероятностей

  • Основные понятия теории вероятностей. Определение вероятностного пространства, простейшие дискретные случаи (выборки с порядком и без него, упорядоченные и неупорядоченные), классическая вероятностная модель. Случайная величина, функция распределения.
  • Условные вероятности. Определение условной вероятности, формула полной вероятности, формула Байеса.
  • Математическое ожидание, дисперсия, корреляция. Определение математического ожидания, дисперсии, ковариации и корреляции, их свойства.
  • Независимость событий. Попарная независимость и независимость в совокупности.
  • Основные теоремы теории вероятностей. Неравенство Чебышева. Закон больших чисел. Центральная предельная теорема.
  • Распределения. Стандартные дискретные и непрерывные распределения, их математические ожидания, дисперсии и свойства: биномиальное; равномерное; нормальное; пуассоновское; показательное; геометрическое.

Шаг 3: Программирование

  • Простейшие конструкции языка программирования. Циклы, ветвления, рекурсия.
  • Анализ алгоритмов. Понятие о сложности по времени и по памяти. Асимптотика, O-символика. Инварианты, пред- и пост- условия. Доказательство корректности алгоритмов.
  • Простейшие структуры данных. Массивы, стеки, очереди, связные списки, Сравнение временных затрат при различных типах операций.
  • Строки и операции над ними. Представление строк. Вычисление длины, конкатенация.
  • Сортировки. Нижняя теоретико-информационная оценка сложности задачи сортировки. Алгоритмы сортировки вставками, пузырьком, быстрая сортировка, сортировка слиянием. Оценка сложности.
  • Указатели.Указатели и динамическое управление памятью.

Курсы для подготовки:

Шаг 4: Анализ данных

Крайне важно понимать, как подготовить базу данных для получения желаемых результатов без потери информации. Далее специалист по Data Science с помощью различных инструментов, методов, методологий и алгоритмов анализирует и оптимизирует информацию для создания эффективных бизнес стратегий.

  • Основные машинного обучения: классификация, регрессия, ранжирование, кластеризация. Обучение с учителем и без учителя.
  • Предобработка и очистка данных. Работа с пропущенными значениями.
  • Feature Engineering. Работа с категориальными признаками.
  • Переобучение: как его обнаружить и как с ним бороться. Разделение на обучающую и тестовую выборки. Методы регуляризации.
  • Сравнение моделей. Метрики в задачах классификации и регрессии. Методология подборара гиперпараметров.
  • Основные модели классификации и регрессии: линейные модели, решающие деревья. Ансамбли алгоритмов.

Курсы для подготовки:

Шаг 5: Практика

После изучения необходимых тем, переходите к практическим занятиям. Это лучший способ закрепить полученные знания и подготовится к интервью, во время которого вам предстоит решать задачи в режиме реального времени.

Примеры упражнений:

Я, Александр Лыков, кандидат физико-математических наук, работаю на мехмате МГУ и уже несколько лет готовлю студентов к ШАД. В этой статье я решил разобрать наиболее важные моменты при подготовке к экзамену.

Вступление

Школа Анализа Данных Яндекса является местом, в котором можно получить современные знания по программированию, анализу данных, прикладной математике. Занятия ведут лучшие специалисты в своих областях. В узких кругах ШАД – давно хорошо зарекомендовавшее себя место и не нуждается в дополнительной рекламе. Конкурс при поступлении в ШАД велик и вступительные экзамены достаточно сложны. Средняя зарплата выпускника ШАД гораздо выше средней зарплаты программиста или специалиста по анализу данных. В данной статье я рассмотрю, как правильно нужно готовиться к письменной части вступительного экзамена.

Разбор программы

Программа состоит из шести частей:

Программирование, алгоритмы и структуры данных

Разделим программу на две части: математика и computer science. В математику включим алгебру, математический анализ, комбинаторику, теорию вероятностей. Рассмотрим далее только подготовку к математическим предметам.

Математика

Кроме официальной программы поступления, нам также понадобится список задач прошлых лет со вступительных экзаменов в ШАД:

Каждый год на экзаменах предлагается семь-восемь задач. Две по теории вероятностей/комбинаторике, две по алгебре, две по математическому анализу, одна задача по программированию, одна задача по дискретной математике. В дискретную математику включаем графы и общие задачи на сообразительность, не требующие никаких дополнительных знаний.

Нулевой. Не владеет теорией (не помнит, не знает)

Нулевой плюс. Знает теорию, но не умеет решать задачи.

Низкий. Знает теорию, умеет решать простые задачи, но задачи среднего уровня сложности вызывают затруднения.

Средний. Знает теорию. Умеет решать средние задачи, но есть трудности со сложными задачами. Знает теорию.

Высокий. Умеет решать сложные задачи.

Если у вас нулевой уровень, то нужно будет приложить колоссальные усилия, но нет ничего невозможного. Рассмотрим подготовку по теории вероятностей. Программу можно декомпозировать на восемь различных тем:

Математическое ожидание дискретных случайных величин

Математическое ожидание общих случайных величин.

Освоение одной темы занимает в среднем десять часов:

2 часа теория (лекции)

2 часа теоретическое освоение навыков решения задач (семинары)

6 часов на самостоятельное решение задач (домашнее задание).

В среднем, чтобы хорошо освоить тему, необходимо решить 12 задач различной сложности на эту тему, но не менее 3-4 сложных задач. Рассчитывая в среднем по полчаса на задачу, получаем 6 часов. Таким образом, на освоение программы по теории вероятностей с нуля нужно потратить 80 часов.

На освоение программы по теории вероятностей с нуля нужно потратить минимум 80 часов.

Если уровень выше нулевого, то переход на уровень выше осуществляется путём прорешивания задач своего уровня и уровнем выше. На этот процесс нужно смотреть как на тренировку по физкультуре. Выделять три-четыре дня в неделю по три-четыре часа занятий. При этом, каждый день нужно начинать с решения простых задач (одна-две разминочные), далее в течении дня повышать уровень, но несильно. Каждые 45 минут небольшой перерыв. Будут задачи-исследования, не поддающиеся решению несколько дней. Это нормально, нужно стараться их решить параллельно с другими. Задача-исследование должна быть одна, так чтобы в голове сидело не больше двух задач одновременно (задачи исследование+текущая задача). При решении задачи-исследование полезно её декомпозировать на более простые, упрощать, искать более простые формулировки, можно смотреть учебники и книги на соответствующую тему. Главное, заставлять свой мозг работать и строить связи вокруг, и не сидеть часами над пустым листком бумаги, ожидая снисхождения идеи сверху.

Management Consulting: Past, Present, and Future

-->

За время подготовки в ШАДу накопилось очень много материалов. Это и задачи с экзаменов с решениями, и задачи с собеседований, и все необходимые книги, конспекты, шпаргалки и прочее. Все это доступно по этой ссылке.

Что есть материалах по подготовке к ШАДу:

  • 1_Online_Test – мои решение задач с теста на Питоне
  • 2_Exams – задачи с экзаменов 2012-2018 и их решения. Еще советую посмотреть supershad – там формат поудобнее.
  • 3_Interviews – задачи с интервью прошлых лет и их решения. Еще источник
  • 4_Books – все книги, перечисленные в программе для поступления в ШАД, плюс еще много разных полезных книг, которыми я пользовался при подготовке
  • 5_Formulae – различные конспекты, формулы и шпаргалки. Если нужно освежить в памяти отдельные темы или нет времени целиком прочитать книги
  • 6_Problemsets – задачи, близкие к экзаменам и интервью в ШАД. Сейчас там лежат листки по теорверу ФКН Вышки. Добавлю еще материалы, если найду
  • More_materials – дополнительные материалы по подготовке, на которые наткнулся в Интернете. Сам не успел ими воспользоваться, но подозреваю, что интересные задачи там найдутся

Папка большая (700 МВ), поэтому не знаю, сколько проживет ссылка. Пишите в комментах, постараемся ее оживлять.

Если еще не подписались на наш канал в YouTube, самое время это сделать вот здесь! В начале августа узнаем, к чем привела вся эта эпопея =)

Similar posts

КАК СТУДЕНТУ ПОВЫСИТЬ ШАНСЫ СТАТЬ КОНСУЛЬТАНТОМ

Ты сейчас на n-ом курсе и хочешь после выпуска пойти работать консультантом? Вот 5 вещей, на которые ты (почти) можешь повлиять и которые повысят твои шансы.

КАК СТУДЕНТУ ПОВЫСИТЬ ШАНСЫ СТАТЬ КОНСУЛЬТАНТОМ

Почему мастерства кейсов недостаточно

Всё ли дело в кейсах? Вовсе нет! Подготовка к собеседованию в консалтинговые компании у большинства людей ассоциируется с решением бизнес-кейсов и головоломок (брейн-тизеров): оценка размера рынка, анализ снижения прибыльности, вывод на рынок нового продукта, синергия от слияний и поглощений, оптимизация логистической цепи и так далее. Причина ясна: считается, что ежедневная работа консультанта как раз и заключается в решении подобных бизнес-проблем для различных клиентов во всевозможных отраслях, поэтому и кандидаты должны продемонстрировать сноровку в подобной аналитике. Так ли это на самом .

Почему мастерства кейсов недостаточно

РЕЗУЛЬТАТЫ ЭКЗАМЕНА. ПРОХОДНОЙ БАЛЛ. СТАТИСТИКА 2017 | ШАД ЯНДЕКСА

Пару часов назад прислали email с результатами экзамена в ШАД. Все не так классно, как хотелось бы, но шанс есть. Все зависит от результатов апелляции и проходного балла.

Подготовка к ШАД | shad helper

Осталось 4 часа до окончания записи на курс Математика для ШАД.

Это последняя итерация в этом году, которая закончится в середине апреля. Преподаватели из лучших университетов: МГУ, Физтеха и Вышки. Лекции и семинары будут доступны в записи. Проверяемые домашние задания по каждому из предметов.

Начало курса: 1 февраля
Показать полностью.
Длительность курса: 10 недель
Стоимость: 9900 рублей первый платеж, далее 4900 в неделю
Записаться можно до: 31.01(сегодня) 23:59 (МСК)

Математика для ШАД

Подготовка к ШАД | shad helper

Подготовка к ШАД | shad helper запись закреплена

Сегодня последний день для покупки курса Математика для ШАД. В этом учебном году новых итераций больше не будет.

В Математика для ШАД входят 4 предмета:
- Алгебра
- Математический анализ
Показать полностью.
- Теория вероятностей
- Дискретная математика

Преподаватели из МГУ, МФТИ и Вышки.

Начало курса: 1 февраля
Длительность курса: 10 недель
Стоимость: 9900 рублей первый платеж, далее 4900 в неделю

Математика для ШАД

Подготовка к ШАД | shad helper

Подготовка к ШАД | shad helper запись закреплена

⚡

Все курсы доступны для покупки

Подготовка к ШАД | shad helper

Подготовка к ШАД | shad helper запись закреплена

Сегодня в 19:00 старт продаж курсов подготовки к ШАД.

В этом году у нас 5 курсов подготовки:
- Алгебра
- Математический анализ
Показать полностью.
- Теория вероятностей
- Анализ данных
- Дискретная математика

Как и в прошлый раз, будут доступны “Бандлы” - совмещение нескольких курсов, в зависимости от уровня нагрузки.

Описание и преподавателей можно посмотреть на сайте.

Подготовка к ШАД | shad helper

Подготовка к ШАД | shad helper запись закреплена

Мы запускаем новый проект по решению задач прошлых лет из экзамена в ШАД.

Сейчас уже доступен разбор одного из вариантов прошлых лет, в ближайшее время к нему будут доступны и видео-решения! Другие варианты также будут доступны в скором времени.

Решения вступительных испытаний в ШАД

Подготовка к ШАД | shad helper

Подготовка к ШАД | shad helper запись закреплена

Сегодня в 20:00 мы откроем предзаказ на все наши математические курсы для ШАД

Предзаказ — возможность заранее спланировать свою подготовку и получить хорошую скидку при покупке. У нас будут доступны 3 математических предмета: Алгебра, Математический анализ и Теория Вероятностей.
Показать полностью.

Наши сотрудники преподают и ведут научную работу в крупнейших российских университетах (МГУ, МФТИ). Автор всех программ — Александр Лыков, имеет более чем 7 летний опыт преподавания на мехмате МГУ и автор более 30 научных статей.

Читайте также: