Генетический прогноз рецидива рака: ученые проверили, можно ли доверять компьютерным моделям

В биомедицинских исследованиях алгоритмы машинного обучения часто используются для анализа данных, например для предсказания рецидива рака. Однако не всегда ясно, находят ли эти алгоритмы значимые закономерности или подстраиваются под случайные шумы в данных. Ученые из НИУ ВШЭ, ИБХ РАН и МГУ разработали тест, который позволяет определить эту разницу. Он может стать важным инструментом для проверки надежности алгоритмов в медицине и биологии. Исследование опубликовано в цифровом архиве arXiv.
Методы машинного обучения помогают анализировать сложные биологические данные, например предсказывать вероятность рецидива рака по экспрессии генов — уровню активности участков ДНК в клетках. Однако не всегда ясно, находят ли эти алгоритмы значимые закономерности или подстраиваются под случайные шумы в данных.
Команда ученых из НИУ ВШЭ, ИБХ РАН и МГУ разработала тест, который позволяет проверить, насколько надежно классификатор различает группы пациентов. В данном случае речь идет о двух группах: те, у кого рецидив произошел, и те, у кого его не было. Если модель действительно выявляет биологически значимые различия, значит, она работает корректно. Если же алгоритм просто случайно делит данные, его точность может быть обманчиво высокой. Ученые сосредоточились на линейных классификаторах — одном из самых частых инструментов машинного обучения, применяемых в биомедицине.
Антон Жиянов
«Мы хотели проверить, насколько вероятно, что даже случайно сгенерированные (синтетические) данные можно разделить линейным классификатором не хуже, чем реальные биологические образцы. Для этого мы рассчитали верхнюю границу p-значения — число, которое показывает вероятность того, что модель “угадывает”. Чем ниже это значение, тем надежнее классификатор», — рассказывает научный сотрудник Лаборатории молекулярной физиологии НИУ ВШЭ Антон Жиянов.
Исследователи провели серию экспериментов на синтетических данных, в ходе которых могли точно контролировать степень различий между классами. Затем они применили новый тест к реальным медицинским моделям, предсказывающим риск рецидива рака молочной железы.
Оказалось, что большинство классификаторов не выявляли реальных различий между пациентами с рецидивом и без него. При дополнительной проверке 559 из 570 моделей показали случайные результаты. Это значит, что многие алгоритмы могут казаться точными, хотя на самом деле их предсказания основаны на совпадениях, а не на реальных закономерностях.
Однако исследователи нашли и надежные модели, которые выявляют биологически значимые закономерности. Одной из них оказался классификатор, который ориентировался на уровень активности генов ELOVL5 и IGFBP6. Этот алгоритм прошел дополнительную проверку на независимой выборке данных и показал, что различия в экспрессии этих генов действительно связаны с риском рецидива рака.
Каждая точка на графике — человек, у которого измерили экспрессию двух генов — IGFBP6 (по оси X) и ELOVL5 (по оси Y). Оранжевые точки — люди с рецидивом, а синие — без. На первом графике эти точки (люди) четко разделены прямой (линейным классификатором). На втором графике точки расположены хаотично, классификатор не идентифицирует закономерности между экспрессией и реальным рецидивом.
Александр Тоневицкий
«Наш тест может стать важным инструментом для проверки надежности алгоритмов в биологии и медицине. Он помогает избежать ложных выводов и сосредоточиться на моделях, которые действительно находят важные закономерности, что критично для принятия решений о лечении пациентов», — комментирует профессор факультета биологии и биотехнологии Александр Тоневицкий.
Работа выполнена при поддержке Программы фундаментальных исследований НИУ ВШЭ в рамках проекта «Центры превосходства».
Вам также может быть интересно:
«Там, где невозможно точно предсказать результат, возникает стохастика»
Международная лаборатория стохастического анализа и его приложений НИУ ВШЭ изучает системы и явления, в которых случайность играет ключевую роль. Цель — прогнозирование различных явлений и их развития. «Вышка.Главное» побеседовала с заведующим лабораторией Владимиром Пановым и ее научным руководителем Валентином Конаковым.
Биологи НИУ ВШЭ обнаружили уникальные свойства микроРНК miR-93-5р при раке предстательной железы
Исследователи факультета биологии и биотехнологии НИУ ВШЭ изучили, как различные формы одной и той же микроРНК влияют на работу генов при аденокарциноме предстательной железы. Оказалось, что в некоторых случаях микроРНК могут усиливать функции друг друга, подавляя одни и те же гены. Работа помогает по-новому взглянуть на молекулярные механизмы развития опухолей и поиск биомаркеров заболевания. Результаты опубликованы в журнале PeerJ.
Математическая физика в Вышке: международный уровень
Международная лаборатория зеркальной симметрии и автоморфных форм НИУ ВШЭ (МЛЗС) и Пекинский институт математических наук и приложений (BIMSA) провели совместную онлайн-конференцию по математической физике. Результаты представленных исследований МЛЗС будут опубликованы в ведущих научных журналах.
Тест «КардиоЖизнь» Вышки — в числе победителей премии Data Fusion Awards 2026
Разработка ученых Центра биомедицинских исследований и технологий Института ИИ и цифровых наук ФКН ВШЭ — генетический тест «КардиоЖизнь» — одержала победу в Общероссийской кросс-отраслевой премии в области технологий работы с данными и ИИ Data Fusion Awards. Проект занял первое место в номинации «Партнерство науки и бизнеса», показав успешную модель трансфера технологий из университетской науки в реальный сектор здравоохранения.
«Хотелось бы создать фотонно-интегральную схему, которую можно будет применить на практике»
Научный сотрудник Международной лаборатории квантовой оптоэлектроники НИУ ВШЭ в Санкт-Петербурге Никита Фоминых пришел в Вышку ради творческой атмосферы и возможности проводить эксперименты и исследования на уникальном оборудовании лаборатории. Недавно он защитил кандидатскую диссертацию, посвященную изучению и разработке компонентов для фотонных интегральных схем. О работе в лаборатории и о своих исследовательских планахученый рассказал «Вышке.Главное».
Как исследовать ландшафты в эпоху больших данных
Международная лаборатория ландшафтной экологии НИУ ВШЭ изучает явления, определяющие функционирование окружающей среды. Эти исследования важны для прогнозирования динамики окружающей среды в разных регионах России, реализации природно-климатических проектов, охраны редких видов животных и растений, развития лесного и сельского хозяйства. О работе лаборатории «Вышке.Главное» рассказали ее руководитель Роберт Сандлерский и декан факультета географии и геоинформационных технологий НИУ ВШЭ Николай Куричев.
От спинов и двумерных материалов до цунами и торнадо: что изучают физики Вышки
Международная лаборатория физики конденсированного состояния изучает сложнейшие процессы взаимодействия молекул и атомов твердых и жидких веществ, квантовую механику этих процессов и тончайшие двумерные материалы. Физики Вышки совместно с коллегами из ведущих академических институтов исследуют свойства сверхпроводников и топологических материалов, явления при сверхнизких температурах, проблемы турбулентности и гидродинамики.
Эпоха перемен: как исследования ЦСКИ помогают понять Россию
Сотрудники Центра социокультурных исследований НИУ ВШЭ сочетают фундаментальную и прикладную науку. О деятельности центра новостная служба «Вышка.Главное» побеседовала с его директором, доктором психологических наук Александром Татарко, научным руководителем, доктором психологических наук, профессором Надеждой Лебедевой, и главным научным сотрудником Викторией Галяпиной.
Ученые ВШЭ узнали, какой стиль обучения выбирают отличники онлайн-образования
Эксперты НИУ ВШЭ проанализировали цифровые следы студентов и впервые показали, что итоговые оценки зависят от личного стиля прохождения онлайн-курса. Сбалансированный тип учеников оказался успешнее традиционного и практико-ориентированного. Результаты работы помогут в создании адаптивных индивидуальных образовательных систем. Работа опубликована в журнале The Internet and Higher Education.
Кардиология нового поколения: ИИ, генетика и персонализированная медицина
Более 400 специалистов из России и зарубежных стран приняли участие в конгрессе «Генетика и сердце», который прошел в НИУ ВШЭ. Эксперты обсудили последние достижения клинической и молекулярной кардиологии, новые подходы к ведению редких заболеваний, проблемы редактирования генома и роль искусственного интеллекта в интерпретации медицинских и генетических данных. Ключевой темой стало практическое внедрение генетических знаний в рутинную клиническую практику.


