Выпускники НИУ ВШЭ стали призерами двух международных конкурсов по анализу данных
Екатерина Мелианова и Артем Волгин, окончившие магистерскую программу «Прикладная статистика с методами сетевого анализа», заняли второе место в конкурсах CDP: Unlocking Climate Solutions на платформе Kaggle и The COVID-19 Symptom Data Challenge. В состязании, посвященном анализу данных о коронавирусе, выпускники Высшей школы экономики обошли профессоров и студентов PhD-программ Политехнического университета Виргинии, Университета Вашингтона, Массачусетского технологического института и других зарубежных вузов.
Как говорит академический руководитель магистратуры «Прикладная статистика с методами сетевого анализа» Валентина Кускова, участие студентов и выпускников в таких состязаниях можно только приветствовать: «Это не просто возможность применить на практике изученные методы и приобретенные навыки, но и попробовать силы в соревновании с лучшими командами со всего мира. Открытые, анонимные соревнования — верный способ получить обратную связь относительно своих знаний и умений». Студенты данной магистерской программы могут похвастаться самыми разными достижениями: они занимают призовые места на конкурсах НИРС, выигрывают престижные стипендии и премии, поступают в аспирантуру в лучшие мировые университеты, где конкурс составляет сотни человек на место. «Качественная подготовка специалистов по анализу данных для нас — это действительно система», - отмечает Валентина Кускова.
О Facebook и анализе данных о ковиде
Выпускники Вышки Екатерина Мелианова и Артем Волгин сейчас работают стажерами-исследователями в Международной лаборатории прикладного сетевого анализа НИУ ВШЭ. Кроме того, они являются консультантами во Всемирном банке в сфере образования. О конкурсе The COVID-19 Symptom Data Challenge ребята узнали в русскоязычном сообществе Open Data Science, посвященном анализу данных. Участники состязания должны были провести исследование, используя данные опросов на платформе Facebook.
«С начала пандемии Facebook проводит масштабный онлайн-опрос, посвященный COVID-19. Возможно, вы сами видели всплывающее окошко с предложением его пройти, — рассказывает Артем Волгин. — Там были разные вопросы: наличие симптомов коронавируса, частота ношения маски в общественных местах и т.д. В итоге из-за большого покрытия и интереса к теме социальной сети удалось собрать уникальные данные о более 30 миллионах людей со всего мира. За счет такой большой выборки информацию можно было агрегировать по дням и по отдельным регионам».
Артем и Екатерина заинтересовались конкурсом, к тому же организаторы предоставили широкий спектр тем для исследования. Однако выпускники Вышки быстро поняли, что большинство участников начнут строить модели для предсказания новых случаев коронавируса, и поэтому решили сделать что-то другое.
«Мы использовали метод Multilevel Vector Autoregression Modelling. Он позволяет оценить множественные взаимосвязи между переменными во времени, — объясняет Артем. — Содержательно мы исследовали, как влияют государственные меры, а также поведение людей в разных возрастных группах (например, ношение масок или посещение общественных мест), на новые случаи коронавируса в разных странах. В итоге получился ряд интересных результатов, которые мы и презентовали на итоговом показе работ».
Исследование вышкинцев оценили высоко: ребята прошли все этапы и дошли до финала конкурса. «Сам конкурс был поделен на фазы и проводился в необычном для нас формате. Состоялось даже что-то типа предзащиты по Zoom, где мы выступали перед учеными, занимающимися темой COVID-19 в США, — делится впечатлениями Артем. — Мы, конечно, остались более чем довольны вторым местом: нас опередили только профессора и PhD-студенты из американских технических университетов, которые уже два года занимаются предсказанием эпидемий гриппа и других вирусных заболеваний».
«Главным обещанием нашей программы является доступность сложнейших аналитических методов для специалистов с любым базовым образованием, — рассказывает Валентина Кускова. — Екатерина и Артем — социологи по первому образованию, без дополнительной подготовки по математике, компьютерным наукам или другим подобным направлениям. Когда они, используя полученные на нашей программе знания, оставляют позади профессиональных дата-сайентистов из MIT и Вашингтона — это и есть наглядное подтверждение тому, что на нашей программе мы можем подготовить специалистов мирового уровня по направлениям data science и data analytics вне зависимости от направления их базового образования». Как отмечает академический руководитель программы, для нее это не просто эмоции — это лучший комплимент работе преподавательского состава лаборатории, на базе которой реализуется программа, и подходам к подготовке студентов.
О конкурсе в классическом Kaggle-формате
Состязание CDP: Unlocking Climate Solutions прошло в более привычном для выпускников ВШЭ виде. Весной 2020 года Екатерина и Артем, будучи студентами магистратуры, уже участвовали в конкурсе DS4G: Environmental Insights Explorer, который проходил на платформе Kaggle. Тогда они обошли более 100 команд и заняли первое место.
Kaggle — это Data Science платформа корпорации Google. Сообщество объединяет около трех миллионов специалистов по обработке данных и машинному обучению со всего мира. Ресурс публикует обучающие материалы, устраивает опросы и онлайн-соревнования. На конкурсах по анализу данных участники решают разные прикладные задачи, а работы оцениваются экспертами исходя из спектра критериев: качество модели, информативность визуализации, полезность рекомендаций и т. д.
Конкурс CDP: Unlocking Climate Solutions оказался на порядок сложнее прошлогоднего. Его организатором была компания CDP. Она занимается оценкой мер, предпринимаемых городами и корпорациями для борьбы с изменением климата. В качестве данных CDP предоставила участникам конкурса результаты своего ежегодного экспертного опроса, в котором участвуют представители городских администраций и корпораций всего мира.
«Задачи были связаны с построением ряда KPI с целью проанализировать усилия, предпринимаемые городами для улучшения экологической ситуации, — объясняет Екатерина. — Мы смогли не только рассчитать KPI, но и с помощью Data Envelopment Analysis оценить эффективность каждого города в их достижении. Также с помощью Association Rule Mining мы посмотрели на взаимосвязи между экологическими угрозами, действиями городов по их устранению и дополнительной выгодой от этих действий. Дополнительно, используя Natural Language Processing, мы выделили различные темы в экологических отчетах, которые публиковались городами. На мой взгляд, наши идеи и анализ дали интересный и полезный для организаторов результат».
В этом конкурсе вышкинцы тоже заняли второе место. «Мы очень обрадовались, хотя уже не так, как после нашей победы в прошлом году, — признается Екатерина. — Конечно, мы приложили много усилий, чтобы занять призовые места, поэтому ощущения были примерно как после успешной защиты диссертации».
О Вышке и советах младшим коллегам
Екатерина отмечает, что знания и умения, полученные в университете, помогли им достичь таких высоких результатов. «Навыки формулирования исследовательских задач, применения статистических методов для их решения, умение интерпретировать полученные результаты, вписывать их в более общую проблематику и выявлять практическую значимость результатов — этому нас научили в бакалавриате и магистратуре в Вышке», — перечисляет выпускница.
Также она добавляет, что студентам нужно пробовать свои силы в международных конкурсах: «Пользы от поражений в таких соревнованиях не меньше, чем от побед: ты тренируешь свои аналитические навыки, учишься не бояться выступлений. Думаю, многие победители одних состязаний не раз проигрывали в других, и мы — не исключение».
Валентина Кускова, академический руководитель МП «Прикладная статистика с методами сетевого анализа»
Сложно испытывать что-то, кроме радости и гордости, когда твои студенты выигрывают конкурсы против команд из MIT и подобных мировых университетов. Ребята стали победителями или взяли вторые места не на одном, а уже на четырех международных конкурсах. Это не случайный успех, а система. В совокупности с фактом того, что четверть наших выпускников обучается в лучших аспирантурах мира — это еще и внешняя, в том числе международная, валидизация применяемого нами подхода к подготовке специалистов по анализу данных.
Наши программы — «Прикладная статистика с методами сетевого анализа», которую окончили ребята, и новая программа-зеркало на платформе Coursera «Магистр прикладной и сетевой аналитики» — реализуют прикладной, практико-ориентированный подход к обучению сложнейшим методам анализа данных. Это не самый распространенный подход: большинство «традиционных» программ в данной области отталкиваются от теории и математики, а не от поставленной проблемы. Именно способность правильно оценить поставленную задачу и дает им возможность подобрать нужные инструменты для ее решения — и победить в конкурсе.
Волгин Артем Дмитриевич
Кускова Валентина Викторовна
Мелианова Екатерина Георгиевна