мар

2025

Ученые представили новый метод для работы с несбалансированными данными

Специалисты факультета компьютерных наук НИУ ВШЭ и Лаборатории искусственного интеллекта Сбера разработали геометрический метод расширения данных — Simplicial SMOTE. Тесты на разных наборах данных показали, что он значительно улучшает качество работы AI. Метод особенно полезен в ситуациях, когда редкие случаи очень важны, например в борьбе с мошенничеством или при диагностике редких болезней. Результаты исследования доступны в открытом архиве Arxiv.org и будут представлены на Международной конференции по обнаружению знаний и анализу данных (KDD) летом 2025 года в Торонто.

Проблема несбалансированных данных становится все более актуальной в различных областях, в том числе в банковском секторе и медицине. Традиционные методы — случайное дублирование или глобальное семплирование — часто дают низкокачественную выборку или плохо моделируют данные редких классов.

Предложенный учеными из НИУ ВШЭ и Сбера новый метод — Simplicial SMOTE (Synthetic Minority Oversampling Technique) — решает эти проблемы: обеспечивает более точное моделирование сложных топологических структур данных и увеличивает качество классификаторов на несбалансированных наборах данных.

Он помогает создавать новые примеры редкого класса, используя информацию из нескольких близких примеров («симплекса»), а не только из двух близких точек, как в исходной версии SMOTE и его известных аналогах. Это позволяет лучше понимать данные и улучшать работу AI. Метод помогает усовершенствовать обучение искусственного интеллекта на несбалансированных данных, то есть в таких ситуациях, когда есть много примеров одного класса (например, нормальных транзакций), но мало примеров другого (например, мошенничества).

Исследователи экспериментально показали на большом количестве тестовых датасетов, что предложенный подход значимо повышает метрики качества (F1-мера, коэффициент корреляции Matthews) как базового SMOTE, так и его модификаций. В том числе зафиксировано улучшение и для градиентного бустинга — часто используемого на практике классификатора.

Андрей Савченко

«Наш метод особенно эффективен в задачах, где распространены несбалансированные данные и где редкий класс более значим. Банки могут использовать Simplicial SMOTE, чтобы лучше выявлять мошенничество, а медицинские центры — чтобы диагностировать редкие заболевания», — комментирует один из авторов статьи Андрей Савченко, ведущий научный сотрудник Лаборатории теоретических основ моделей искусственного интеллекта Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ.

Новый метод можно интегрировать в существующие алгоритмы оверсемплинга (Borderline-SMOTE, Safe-level-SMOTE и ADASYN), повысив их точность без существенного роста вычислительной сложности. Исследователи считают, что разработанный подход может способствовать развитию более точных и надежных моделей машинного обучения и, следовательно, повышению качества аналитики.

Исследование выполнено при поддержке Программы фундаментальных исследований НИУ ВШЭ.

Дата

14 марта 2025

Рубрики

Наука

Темы

исследования и аналитика анализ данных искусственный интеллект

В статье упомянуты

Институт искусственного интеллекта и цифровых наук, Лаборатория теоретических основ моделей искусственного интеллекта, Программа фундаментальных исследований НИУ ВШЭ, Факультет компьютерных наук

Персоны

Савченко Андрей Владимирович

Вам также может быть интересно:

июл

2026

Новый метод НИУ ВШЭ и Т-Технологий повышает качество работы ИИ

Ученые из лаборатории научных исследований «Т-Технологий» и Института искусственного интеллекта и цифровых наук факультета компьютерных наук НИУ ВШЭ разработали новый метод семплирования для моделей маскированной диффузии — G-Star+. Он помогает быстрее и качественнее исправлять ошибки во время генерации текста и кода за небольшое число шагов. Метод показал эффективность в задачах генерации текста и кода и может применяться там, где генеративным моделям нужно быстро и качественно создавать текст или код при ограниченных вычислительных ресурсах.

9 июля

июл

2026

В Вышке открыли проектно-учебную лабораторию совместно с Группой «Т-Технологии»

Группа «Т-Технологии» (головная структура Т-Банка) открыла проектно-учебную лабораторию на базе факультета компьютерных наук НИУ ВШЭ (ФКН НИУ ВШЭ). Проектно-учебная лаборатория Группы «Т-Технологии» в НИУ ВШЭ сосредоточится на проектах и задачах в области искусственного интеллекта, распределенных вычислений, анализа больших данных и информационной безопасности в финансовом секторе. Лабораторию возглавит Алексей Теплов, кандидат физико-математических наук.

3 июля

июн

2026

«Защищать конкуренцию от ИИ нам придется с помощью самого искусственного интеллекта»

В НИУ ВШЭ прошел двухдневный семинар «Искусственный интеллект и конкурентная политика в странах БРИКС». Его участники обсудили две ключевые для конкурентной политики темы: трансформация конкуренции и рынков под влиянием технологий ИИ и усилени е регуляторного потенциала антимонопольных органов за счет технологий искусственного интеллекта.

26 июня

июн

2026

В НИУ ВШЭ разработали сервис обезличивания табличных данных для безопасного использования в ИИ-системах

Институт искусственного интеллекта и цифровых наук ФКН ВШЭ разработал сервис обезличивания табличных данных, предназначенный для подготовки корпоративных данных к использованию в аналитических и ИИ-сервисах. Решение позволяет выявлять персональные данные в структурированных наборах, применять к ним воспроизводимые правила обезличивания и формировать артефакты, необходимые для контроля качества, аудита и последующего использования данных в защищенных контурах.

15 июня

июн

2026

Высшая школа экономики и «Ростелеком» поддержат ИИ-стартапы для госсектора

НИУ ВШЭ и «Ростелеком» подписали на ПМЭФ-2026 соглашение о сотрудничестве в рамках реализации акселератора ИИ-решений для государственного сектора. Совместная работа позволит объединить технологическую экспертизу крупнейшего цифрового партнера государства и академический потенциал ведущего исследовательского университета страны.

4 июня

июн

2026

Проблемы этики: как и где использовать ИИ

За последние годы этика в сфере искусственного интеллекта превратилась из философско-теоретической в прикладную дисциплину. Эксперты в НИУ ВШЭ обсудили, какие этические проблемы возникают в связи со стремительным развитием цифровизации и какие их инженерные решения могут быть предложены.

3 июня

мая

2026

НИУ ВШЭ и МТС договорились об обмене ИИ-компетенциями при подготовке инженерных кадров для телекома

НИУ ВШЭ и ПАО «МТС» заключили соглашение о стратегическом партнерстве, которое предполагает подготовку кадров с ИИ-компетенциями для телекоммуникационной отрасли по программам высшего и дополнительного профессионального образования. Соглашение направлено на повышение качества образования, обмен экспертизой и компетенциями при подготовке инженеров, владеющих технологиями ИИ и машинного обучения.

27 мая

мая

2026

Точка входа в ИИ: на ЦИПР обсудили влияние технологий на будущее

Участники ЦИПР-2026 обсудили, как офисные приложения могут стать точкой массового доступа к ИИ и снизить барьеры использования. Эксперты сошлись во мнении, что будущее — за адаптивными моделями и экосистемным подходом к корпоративным данным. В экспертных дискуссиях приняли участие представители НИУ ВШЭ.

21 мая

мая

2026

ФКН ВШЭ расширяет линейку образовательных программ по ИИ для руководителей

Центр непрерывного образования факультета компьютерных наук НИУ ВШЭ (ЦНО ФКН ВШЭ) развивает уникальную линейку образовательных продуктов для топ-менеджмента, где передовая компьютерная наука соединяется с реальными задачами бизнеса. Цель этого направления — помогать развивать бизнес в России через внедрение технологий искусственного интеллекта.

18 мая

мая

2026

Ученые ФКН ВШЭ представили работы в сфере ИИ и биоинформатики на ICLR 2026

Ученые Института искусственного интеллекта и цифровых наук факультета компьютерных наук ВШЭи студенты трека «ИИ360: Инженерия искусственного интеллекта» бакалаврской программы «Прикладная математика и информатика» приняли участие в международной конференции ICLR — одном из самых авторитетных мировых форумов в области машинного обучения и представления данных. В этом году конференция состоялась в Рио-де-Жанейро (Бразилия).

14 мая