Ученые представили новый метод для работы с несбалансированными данными

Специалисты факультета компьютерных наук НИУ ВШЭ и Лаборатории искусственного интеллекта Сбера разработали геометрический метод расширения данных — Simplicial SMOTE. Тесты на разных наборах данных показали, что он значительно улучшает качество работы AI. Метод особенно полезен в ситуациях, когда редкие случаи очень важны, например в борьбе с мошенничеством или при диагностике редких болезней. Результаты исследования доступны в открытом архиве Arxiv.org и будут представлены на Международной конференции по обнаружению знаний и анализу данных (KDD) летом 2025 года в Торонто.
Проблема несбалансированных данных становится все более актуальной в различных областях, в том числе в банковском секторе и медицине. Традиционные методы — случайное дублирование или глобальное семплирование — часто дают низкокачественную выборку или плохо моделируют данные редких классов.
Предложенный учеными из НИУ ВШЭ и Сбера новый метод — Simplicial SMOTE (Synthetic Minority Oversampling Technique) — решает эти проблемы: обеспечивает более точное моделирование сложных топологических структур данных и увеличивает качество классификаторов на несбалансированных наборах данных.
Он помогает создавать новые примеры редкого класса, используя информацию из нескольких близких примеров («симплекса»), а не только из двух близких точек, как в исходной версии SMOTE и его известных аналогах. Это позволяет лучше понимать данные и улучшать работу AI. Метод помогает усовершенствовать обучение искусственного интеллекта на несбалансированных данных, то есть в таких ситуациях, когда есть много примеров одного класса (например, нормальных транзакций), но мало примеров другого (например, мошенничества).
Исследователи экспериментально показали на большом количестве тестовых датасетов, что предложенный подход значимо повышает метрики качества (F1-мера, коэффициент корреляции Matthews) как базового SMOTE, так и его модификаций. В том числе зафиксировано улучшение и для градиентного бустинга — часто используемого на практике классификатора.
Андрей Савченко
«Наш метод особенно эффективен в задачах, где распространены несбалансированные данные и где редкий класс более значим. Банки могут использовать Simplicial SMOTE, чтобы лучше выявлять мошенничество, а медицинские центры — чтобы диагностировать редкие заболевания», — комментирует один из авторов статьи Андрей Савченко, ведущий научный сотрудник Лаборатории теоретических основ моделей искусственного интеллекта Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ.
Новый метод можно интегрировать в существующие алгоритмы оверсемплинга (Borderline-SMOTE, Safe-level-SMOTE и ADASYN), повысив их точность без существенного роста вычислительной сложности. Исследователи считают, что разработанный подход может способствовать развитию более точных и надежных моделей машинного обучения и, следовательно, повышению качества аналитики.
Исследование выполнено при поддержке Программы фундаментальных исследований НИУ ВШЭ.
Вам также может быть интересно:
«Защищать конкуренцию от ИИ нам придется с помощью самого искусственного интеллекта»
В НИУ ВШЭ прошел двухдневный семинар «Искусственный интеллект и конкурентная политика в странах БРИКС». Его участники обсудили две ключевые для конкурентной политики темы: трансформация конкуренции и рынков под влиянием технологий ИИ и усилени е регуляторного потенциала антимонопольных органов за счет технологий искусственного интеллекта.
В НИУ ВШЭ разработали сервис обезличивания табличных данных для безопасного использования в ИИ-системах
Институт искусственного интеллекта и цифровых наук ФКН ВШЭ разработал сервис обезличивания табличных данных, предназначенный для подготовки корпоративных данных к использованию в аналитических и ИИ-сервисах. Решение позволяет выявлять персональные данные в структурированных наборах, применять к ним воспроизводимые правила обезличивания и формировать артефакты, необходимые для контроля качества, аудита и последующего использования данных в защищенных контурах.
Высшая школа экономики и «Ростелеком» поддержат ИИ-стартапы для госсектора
НИУ ВШЭ и «Ростелеком» подписали на ПМЭФ-2026 соглашение о сотрудничестве в рамках реализации акселератора ИИ-решений для государственного сектора. Совместная работа позволит объединить технологическую экспертизу крупнейшего цифрового партнера государства и академический потенциал ведущего исследовательского университета страны.
Проблемы этики: как и где использовать ИИ
За последние годы этика в сфере искусственного интеллекта превратилась из философско-теоретической в прикладную дисциплину. Эксперты в НИУ ВШЭ обсудили, какие этические проблемы возникают в связи со стремительным развитием цифровизации и какие их инженерные решения могут быть предложены.
НИУ ВШЭ и МТС договорились об обмене ИИ-компетенциями при подготовке инженерных кадров для телекома
НИУ ВШЭ и ПАО «МТС» заключили соглашение о стратегическом партнерстве, которое предполагает подготовку кадров с ИИ-компетенциями для телекоммуникационной отрасли по программам высшего и дополнительного профессионального образования. Соглашение направлено на повышение качества образования, обмен экспертизой и компетенциями при подготовке инженеров, владеющих технологиями ИИ и машинного обучения.
Точка входа в ИИ: на ЦИПР обсудили влияние технологий на будущее
Участники ЦИПР-2026 обсудили, как офисные приложения могут стать точкой массового доступа к ИИ и снизить барьеры использования. Эксперты сошлись во мнении, что будущее — за адаптивными моделями и экосистемным подходом к корпоративным данным. В экспертных дискуссиях приняли участие представители НИУ ВШЭ.
ФКН ВШЭ расширяет линейку образовательных программ по ИИ для руководителей
Центр непрерывного образования факультета компьютерных наук НИУ ВШЭ (ЦНО ФКН ВШЭ) развивает уникальную линейку образовательных продуктов для топ-менеджмента, где передовая компьютерная наука соединяется с реальными задачами бизнеса. Цель этого направления — помогать развивать бизнес в России через внедрение технологий искусственного интеллекта.
AI AWARDS 2026: аналитическую основу премии формирует iFORA НИУ ВШЭ
Высшая школа экономики вошла в число партнеров премии AI AWARDS 2026, которая пройдет 29 апреля в Москве. Проект, реализуемый командой «Билайн Big Data & AI», посвящен практическому применению искусственного интеллекта и объединяет компании, технологии и команды, которые уже сегодня влияют на развитие новой цифровой экономики. Вклад номинантов AI AWARDS в развитие ИИ анализируется на основе данных, поэтому качество аналитической базы и прозрачность методологии становятся для рынка принципиально важными.
Будущее кардиогенетики — с искусственным интеллектом
Исследователи Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ (Институт ИИиЦН) создали программу, которая способна анализировать участки генома человека, ранее недоступные для точной интерпретации при генетическом тестировании. Программа адаптирует большие генеративные модели (ГенИИ) под задачи кардиогенетики, чтобы предсказывать, как мутация влияет на работу конкретного гена.
НИУ ВШЭ и Альфа-Банк запускают исследовательские проекты в сфере искусственного интеллекта
НИУ ВШЭ и Альфа-Банк объявили о старте трех совместных проектов в области искусственного интеллекта. Они направлены на развитие аналитических инструментов для банковских сервисов — от более точных прогнозов до новых подходов к управлению рисками и персонализации клиентского опыта.


