AlphaFold, подвинься. Эта открытая нейросеть предсказала форму миллиарда белков и бросила вызов Google

Как ESM Atlas переписывает карту науки.


6g8dh3vjlpjhou95fte89z3j9y8ikmy7.jpg

Учёные получили гораздо более подробную карту белкового разнообразия. Исследователи представили ESM Atlas - базу данных с прогнозами пространственного строения более чем 1,1 миллиарда белков и сведениями об аминокислотных последовательностях 6,8 миллиарда молекул. Значительная часть записей относится к организмам и биологическим объектам, которые пока плохо изучены или вообще не получили подробного описания.

ESM Atlas подготовили специалисты Biohub при Chan Zuckerberg Initiative. Биомедицинский институт в Сан-Франциско создали Марк Цукерберг и врач, педагог Присцилла Чан. По размеру новый каталог заметно обходит AlphaFold: разрыв превышает 800 миллионов записей с предсказанными структурами. По сравнению с прошлой версией ESM Atlas прибавка составляет примерно 300 миллионов.

Пространственное строение рассчитывала ESMFold2. Biohub утверждает, что система показывает результат лучше AlphaFold3, последней версии разработки Google DeepMind, а также превосходит или догоняет другие инструменты для таких задач. Подробности приведены в отчёте исследовательской группы.

Размер базы важен, но смысл проекта не сводится к рекорду. Руководитель научного направления Biohub Алекс Ривс, который возглавлял работу, описывает ESM Atlas как способ увидеть почти всё известное белковое разнообразие сразу, включая его самые тёмные участки. По замыслу команды, такой массив должен помочь искать новые связи в биологии и быстрее находить функции молекул, о которых сейчас почти ничего не известно.

ESMFold2 опирается на систему, которую команда Ривса представила в 2024 году. Она устроена по принципу языковых моделей, но работает не с человеческой речью, а с аминокислотными цепочками. Белок можно представить как длинную последовательность строительных блоков, а алгоритм учится замечать закономерности в миллиардах подобных цепочек. Для обучения взяли данные о белках из разных ветвей живого мира.

В обучающую выборку вошли и метагеномные последовательности. Их получают не из одного хорошо описанного организма, а из образцов среды: почвы, океана и других природных источников. В таких данных часто встречаются следы микробов, которых никто не выращивал в лаборатории и не изучал отдельно. Поэтому ESM Atlas охватывает не только привычную биологию из учебников, но и огромный слой природного материала, где у науки пока мало прямых наблюдений.

Команда Biohub заявляет, что ESMFold2 хорошо справляется не только с отдельными белками, но и с комплексами, где несколько молекул соединяются или влияют друг на друга. Для биологии и медицины это особенно важно. В клетке белки редко действуют изолированно: ферменты находят партнёров, рецепторы распознают сигналы, а антитела прикрепляются к молекулярным мишеням, которые называют антигенами.

Отдельно исследователи проверяли, как ESMFold2 определяет строение комплексов антител с антигенами. Антитело должно точно подойти к мишени по форме и химическим свойствам, иначе прочного связывания не получится. По данным авторов, система конкурирует с существующими методами, включая AlphaFold3, и в некоторых задачах показывает более точный результат.

В отчёте описан и практический эксперимент. С помощью ESMFold2 исследователи спроектировали новые антитела и другие белки, которые должны были прочно связываться с молекулами, связанными с раком и иммунологическими заболеваниями. Затем часть вариантов изготовили и проверили в лаборатории. Высокая доля созданных конструкций сработала так, как предсказывала система.

ESM Atlas содержит не только прогнозы трёхмерного строения, но и большой массив аминокислотных последовательностей. В базе собраны сведения о 6,8 миллиарда белков, причём большинство записей пришло из метагеномных данных и пока не прошло полноценную характеристику. Атлас будет доступен бесплатно, чтобы исследователи могли сопоставлять хорошо изученные молекулы с неизвестными и искать между ними родство по форме, функциям и происхождению.

Один пример уже показывает, зачем нужна база такого масштаба. С помощью ESM Atlas исследователи нашли структурное сходство между микробными защитными белками CRISPR и белком для редактирования генов, который в 2023 году обнаружили у почвенного гриба, а затем нашли у других эукариотических видов. Эукариоты - организмы, клетки которых имеют оформленное ядро, включая грибы, растения и животных. Такая близость по строению может указывать на неожиданные связи между микробными системами защиты и инструментами, пригодными для изменения генома.

Другие учёные уже отметили масштаб результата, особенно из-за полностью открытого исходного кода ESMFold2. При этом Biohub работает в области, где быстро продвигаются и открытые проекты, и закрытые коммерческие разработки. ESM Atlas выделяется не только числом записей. Проект связывает плохо изученные последовательности из природных образцов с предсказанными структурами, которые затем можно проверять в лаборатории и использовать для поиска новой биологии.