Школа анализа данных минск

Обновлено: 04.07.2024

Кстати, похожие задачи будут в этом году на вступительном экзамене в ШАД, где для людей с опытом в ИТ мы придумали новый трек, который поможет им улучшить свои знания математики.

1. В ряд выложены пять красных, пять синих и пять зеленых шаров. С какой вероятностью никакие два синих шара не лежат рядом?

Например, так: сначала расположим красные и зелёные шары (надо выбрать из десяти пять мест, в которых будут красные), после чего пять синих шаров надо положить не более, чем по одному, в одиннадцать промежутков между красными и зелёными шарами, а также слева и справа (то есть выбрать пять мест из одиннадцати).

Задачи по алгоритмам очень хороши тем, что они проверяют не только умение понятно описать некую процедуру, но и объяснить, почему она работает.

Если граф — дерево, то бракованное реле находится перед первой (от источника тока) не горящей лампочкой. Если есть циклы, то можно выключить все рёбра и запустить аналог поиска в глубину.

3. Докажите, что среди шести человек обязательно найдутся трое попарно знакомых или трое попарно незнакомых.

Задачи на графы, особенно если количество вершин небольшое, чаще всего стараются свести к разбору случаев. Важно, чтобы вы смогли внимательно разобрать их и при этом не запутаться.

  • четное число, гласная буква;
  • нечетное число, что угодно.

И не подходят карточки вида:

5. Докажите, что равносторонний треугольник нельзя покрыть двумя меньшими равносторонними треугольниками.

Задачка на геометрическую интуицию: надо понять, что ни один из меньших треугольников не может покрыть сразу две вершины. После этого становится ясно: чтобы покрыть все три вершины, нужно хотя бы три треугольника. А вообще тут зарыто непростое утверждение о диаметре треугольника, но его можно не доказывать.

6. Квадратная матрица такова, что след tr(AX) = 0 для любой матрицы X того же размера, имеющей нулевой след (след матрицы — сумма элементов на главной диагонали).

Докажите, что матрица является скалярной (т. е. имеет вид λE для некоторого λ, где E — единичная матрица).

Таким образом, встретив подобную задачу, стоит сначала взять какие-нибудь конкретные (и желательно очень простые) матрицы X с нулевым следом и попробовать понять, что же нам дает условие tr(AX) = 0. В качестве таких матриц удобно взять матричные единицы (и матрицы, у которых на диагонали все нули, кроме двух элементов, равных 1 и (-1).

Собственно говоря, на этом задача и закончится: из условий tr(AX) = 0, которые вы распишете для таких матриц, сразу будет следовать ответ.

До 2020 года в Школу анализа данных могли попасть только те, кто очень глубоко и творчески владеет высшей математикой. Но этим качеством обладают не все способные люди, интересующиеся data science и инфраструктурой больших данных. Нередко разработчики, аналитики и молодые исследователи не помнят математику 1-2 курса вуза настолько хорошо, чтобы преодолеть наши вступительные экзамены. В этом году мы хотим дать таким людям возможность всё-таки попасть в ШАД. Мы организовали для них специальный трек поступления, о котором я расскажу ниже.

Но мало в ШАД попасть. Матанализ, линейная алгебра и теория вероятностей будут нужны дальше: без них не удастся разобраться с байесовскими методами, корректно оценить асимптотику сложности быстрой сортировки, написать хитрый метод многомерной оптимизации. Поэтому мы создаём принципиально новый адаптационный курс по математике. Все, кто поступят в ШАД по новым правилам, должны будут пройти этот курс.




Кого мы ждём

Новый трек поступления и адаптационный курс предназначены для тех, кто:
— когда-то учил математику, но забыл или недостаточно глубоко понял её,
— при этом хорошо программирует и, возможно, понимает основы анализа данных.

Ну а классический трек по-прежнему подойдёт тем, кто:
— учится в математическом, техническом или инженерном вузе либо недавно окончил его,
— при этом неплохо понимает математику, немного умеет программировать и интересуется анализом данных.

Через новый трек мы планируем взять примерно 30 студентов — в этом году поступить таким способом можно будет только на очное отделение и только в Москве. Всего на потоке будет примерно 200 человек — как и в прошлые годы.

Как поступить

Новый набор в ШАД откроется 1 апреля. Подключайтесь к дню открытых дверей ШАДа — он пройдёт в онлайне 29 марта.

В анкете поступающего вы сможете указать интересующий вас трек — классический или новый (после этого перевестись между ними не получится). Там же можно будет дать ссылки на свои репозитории, опубликованные статьи и написать небольшой рассказ о своих проектах.

Первый этап (онлайн-тестирование) общий для всех. Если выбрать в анкете новый трек, второй этап будет состоять из письменного экзамена по математике и алгоритмам. Мы готовим более простые задачи по математике, чем в классическом треке: часть из них — это просто логические задачи. Также на втором этапе потребуется решить контест по программированию, алгоритмам и анализу данных.

От того, как вы справитесь с этими испытаниями и как заполните анкету поступающего, будет зависеть, получите ли вы приглашение на третий этап — собеседование. На собеседовании мы не станем давать хитрые задач по высшей математике. Зато будут логические задачи, много кода, алгоритмов и разговор о жизни и мотивации.

Одна из главных задач, которую решает минская группа разработки факторов: глядя на текст запроса пользователя, определяет, есть ли у некоторого документа общая с запросом семантика. Мы решаем эту задачу с помощью нейронных сетей и уже получили неплохие результаты, о чём сообщали в публикациях: первой и второй.

Если хочется заниматься такого рода проектами, приходите собеседоваться, в минском офисе открыта вакансия.

Нельзя сказать, что белорусские вузы не выпускают специалистов в области Data Science. Но их действительно меньше, чем хотелось бы. На наш взгляд, основные проблемы следующие:

  • Учёные и специалисты (и вообще молодые люди) по понятным причинам неохотно идут преподавать. В итоге связь образования и производства, образования и науки слаба.
  • Набор в вузы слишком велик, но далеко не все приходят туда действительно учиться. В итоге преподавателям сложно читать что-то выше среднего уровня — 95% даже не будет пытаться понять.

Кто такой Data Scientist. Обзор изнутри от Арсения Кравченко

В задачах инфопоиска используются методы обработки текстов (natural language processing), машинное обучение (machine learning), статистический анализ данных, а также алгоритмы, эффективно работающие на больших объёмах данных, и распределённые системы. В зависимости от задач, которыми вы хотите заниматься, нужно глубже погрузиться в изучение некоторых из этих дисциплин. Если речь идёт не о поиске текстовой информации, а о видео или изображениях, то полезно познакомиться с дисциплинами про обработку изображений.

Сейчас в Минске есть две возможности получить образование в Information Retrieval:

Если хочется узнать о последних достижениях в области информационного поиска, то советуем следить за публикациями на тематических конференциях. Основные: SIGIR, WSDM, CIKM, WWW, KDD. Также есть летние школы, посещение которых может быть полезно как студентам и аспирантам, так и начинающим специалистам: European Summer School in Information Retrieval и Russian Summer School in Information Retrieval.

Курсы по Data Science

Если говорить в целом про Data Science/Machine Learning, то для серьёзного понимания и работы нужен фундаментальный курс теории вероятности (а значит, и математического анализа как необходимого инструмента в теории вероятности), линейной алгебры и, конечно, математической статистики. Фундаментальные математические знания важны для того, чтобы уметь анализировать результаты применения алгоритмов обработки данных. Есть примеры сравнительно сильных инженеров в machine learning без такого бекграунда, но это, скорее, исключение.

Как стать Data Scientist, не потратив ни копейки

Для аналитики и экспериментов с ML-моделями хорошим выбором будет ipython и python-библиотеки scikit-learn, scipy, matplotlib, numpy, pandas. Если хочется развернуть поисковую систему на каком-то наборе данных, то можно воспользоваться достаточно мощными open-source движками elasticsearch или apache solr.

Касательно алгоритмов машинного обучения, для задач ранжирования результатов поиска хорошо работают алгоритмы градиентного бустинга на деревьях. Одна из наиболее популярных реализаций на данный момент — xgboost. Яндекс недавно выложил в opensource свою версию алгоритма — CatBoost, которая в большинстве задач не уступает конкурентам.

Вот очень хороший обзор нейросетевых технологий в задачах информационного поиска. В обзоре есть ссылки на большинство последних достижений в предметной области. Также можно ознакомиться с презентацией коллег из Microsoft Research c конференции WSDM'17.

Каждая нейронная сеть решает свою очень узкую задачу. Сеть, которая различает котиков и собак, отличается не только от сети, которая распознаёт речь, но даже от сети, которая различает котиков и кроликов. А значит, для каждой сети данные нужно брать из разных источников. Хотите обучить сеть, которая отличает ваш голос от лая вашей собаки, — запишите в домашних условиях по 10 часов того и другого — обучите сеть.

Нейросети — это мощный инструмент, но у него есть свои ограничения. Он нужен и полезен далеко не во всех задачах. Машинное обучение тоже важно и полезно, но есть много других не менее важных инструментов. Само по себе машинное обучение — это всего лишь один из методов решения задач. Причем не всегда самый подходящий. Например, интерпретация результатов применения нейронных сетей до сих пор вызывает большие трудности. Сами технологии становятся все доступнее широкому кругу людей, специалистов также становится больше. Со временем всё, что связано с машинном обучении, будет вызывать всё меньший ажиотаж.

Школа анализа данных – двухгодичная программа обучения от Яндекса. Основной упор в ней делается на данные и методы работы с ними. В небольшом обзоре мы разберём плюсы и минусы учёбы в ШАД.

👨‍🎓️ Школа анализа данных – плюсы и минусы

Как поступить?

Итак, ШАД – полноценное обучение на протяжении двух лет, с нагрузкой по 30 часов в неделю. Обучение бесплатное, но сначала требуется пройти онлайн-тестирование, затем экзамен и собеседование в филиалах ШАД.

Как и в университете, здесь есть возможность платного поступления, но для этого нужно хорошо показать себя на собеседовании. Стоит учёба 150 000 рублей в семестр. Если закончить семестр на хорошо и отлично, цена уменьшится наполовину. А если два раза подряд закончить хорошистом или отличником, обучение станет бесплатным.

Онлайн-тестирование – обычное заполнение анкеты с тестовыми вариантами задач. После него есть два варианта: для москвичей следует прибыть в отделение ШАД и сдать экзамен по математике, алгоритмам, а затем по программированию и основам анализа данных. Заочники или учащиеся в региональных отделениях сдают онлайн-экзамен.

В конце пройдёт собеседование – очный экзамен по тому же программированию, математике и алгоритмам.

Все задачи выбираются в рамках общей программы (в документе даже указаны все необходимые книги для подготовки). Кстати, у нас есть статья, полностью посвящённая подготовке к поступлению в ШАД.

В 2020 году появился вариант поступления для тех, кто уже давно в программировании. В этом случае потребуется вместо математики продемонстрировать умение программировать, а также участие в проектах, различных статьях и прочем.

Кому это нужно?

Во-первых, выпускники получают диплом о профессиональной переподготовке. Во-вторых, любовь к Data Science и желание глубоко-глубоко нырнуть в эту отрасль. При этом, если вас интересует чистая научная теория, то место найдётся – регулярные семинары и различные исследовательские проекты.

В целом, целевую аудиторию можно описать так: хочется попасть в сферу Data Science, сделать это максимально эффективно и интересно. К тому же, обучение проходит по вечерам.

ШАД: Плюсы обучения

ШАД: Минусы обучения

  • Вечерняя программа. Если ваша жизнь уже загружена, то добавлять к ней вечерние курсы – стрелять себе в ногу. При этом, обучение действительно интенсивное и требует внимательности.
  • Серьёзная нагрузка. Так как здесь учат анализировать, то мозги будут работать на полную катушку. А то потребуется их перегружать их. Следует заранее прокачать выносливость и… умение отдыхать.

Читайте также: