Портрет по капле крови. Новый алгоритм вычисляет рост преступника по обрывкам ДНК
NewsMakerВ Австрии разработали метод gVAMP для сверхбыстрого анализа биобанков.
Ученые из Института науки и технологий Австрии (ISTA) придумали способ быстрее и точнее вытаскивать смысл из огромных генетических баз данных, таких как биобанки. Обычно такие задачи упираются в компромисс: либо максимально точные методы, которые требуют чудовищных вычислений и на практике почти недостижимы, либо более быстрые подходы, которые платят за скорость потерей точности. Команда из групп Мэтью Робинсона и Марко Монделли заявляет, что нашла вариант, который сдвигает границу сразу в обе стороны.
В основе работы лежит математический подход approximate message passing, который по-русски чаще переводят как «приближенная передача сообщений» (AMP). На его базе исследователи собрали новый алгоритм gVAMP и сделали ставку на «совместную оценку»: вместо того чтобы разбирать данные кусками и потом склеивать выводы, метод пытается оценивать вклад всех вариантов сразу, как единую картину. В статье gVAMP показывают на примере роста человека, одного из самых изученных «сложных признаков» в генетике.
Рост удобен как тестовый полигон, потому что он зависит от огромного числа генетических вариантов. Авторы пишут, что речь идет примерно о 17 миллионах вариантов, которые они анализировали одновременно на сотнях тысяч полногеномных последовательностей из UK Biobank, крупнейшего набора обезличенных биологических, медицинских и поведенческих данных. Важный момент в том, что алгоритм не только лучше предсказывает рост по ДНК, но и помогает указать, какие участки генома вносят вклад, то есть добавляет интерпретируемость, а не просто «черный ящик» с итоговым числом.
Проверить «истинность» найденных вариантов для реального роста напрямую сложно, потому что нет готовой разметки вида «вот точный список причинных мутаций». Поэтому команда пошла стандартным путем через моделирование: сгенерировала искусственный признак с сопоставимым масштабом вариантов и прогнала сравнение с другими методами на нескольких наборах данных. По их выводам, gVAMP заметно выигрывает и по точности, и по времени обработки, при этом остается достаточно эффективным, чтобы делать совместный анализ массивов такого размера за считаные дни, а не недели или месяцы.
Дальше начинаются прикладные обещания. Исследователи планируют расширять подход для задач персонализированной медицины: прогнозировать возраст начала заболевания, тяжесть течения и вероятность конкретных симптомов, а также подключать не только ДНК, но и данные о белках и эпигенетике. Отдельно они допускают и менее очевидный сценарий: использование метода в криминалистике, чтобы по ДНК с места преступления оценивать рост предполагаемого человека.
Ученые из Института науки и технологий Австрии (ISTA) придумали способ быстрее и точнее вытаскивать смысл из огромных генетических баз данных, таких как биобанки. Обычно такие задачи упираются в компромисс: либо максимально точные методы, которые требуют чудовищных вычислений и на практике почти недостижимы, либо более быстрые подходы, которые платят за скорость потерей точности. Команда из групп Мэтью Робинсона и Марко Монделли заявляет, что нашла вариант, который сдвигает границу сразу в обе стороны.
В основе работы лежит математический подход approximate message passing, который по-русски чаще переводят как «приближенная передача сообщений» (AMP). На его базе исследователи собрали новый алгоритм gVAMP и сделали ставку на «совместную оценку»: вместо того чтобы разбирать данные кусками и потом склеивать выводы, метод пытается оценивать вклад всех вариантов сразу, как единую картину. В статье gVAMP показывают на примере роста человека, одного из самых изученных «сложных признаков» в генетике.
Рост удобен как тестовый полигон, потому что он зависит от огромного числа генетических вариантов. Авторы пишут, что речь идет примерно о 17 миллионах вариантов, которые они анализировали одновременно на сотнях тысяч полногеномных последовательностей из UK Biobank, крупнейшего набора обезличенных биологических, медицинских и поведенческих данных. Важный момент в том, что алгоритм не только лучше предсказывает рост по ДНК, но и помогает указать, какие участки генома вносят вклад, то есть добавляет интерпретируемость, а не просто «черный ящик» с итоговым числом.
Проверить «истинность» найденных вариантов для реального роста напрямую сложно, потому что нет готовой разметки вида «вот точный список причинных мутаций». Поэтому команда пошла стандартным путем через моделирование: сгенерировала искусственный признак с сопоставимым масштабом вариантов и прогнала сравнение с другими методами на нескольких наборах данных. По их выводам, gVAMP заметно выигрывает и по точности, и по времени обработки, при этом остается достаточно эффективным, чтобы делать совместный анализ массивов такого размера за считаные дни, а не недели или месяцы.
Дальше начинаются прикладные обещания. Исследователи планируют расширять подход для задач персонализированной медицины: прогнозировать возраст начала заболевания, тяжесть течения и вероятность конкретных симптомов, а также подключать не только ДНК, но и данные о белках и эпигенетике. Отдельно они допускают и менее очевидный сценарий: использование метода в криминалистике, чтобы по ДНК с места преступления оценивать рост предполагаемого человека.