ИИ за минуты нашёл то, на что у учёных уходили месяцы: 3000 новых способов бактерий убивать вирусы

CRISPR был только началом… Встречайте DefensePredictor.


03rx400wc39to435zyo43si807rcq6pd.jpg

Поиск бактериальных систем защиты от вирусов долго напоминал ручной разбор огромного архива без карты и указателей. Исследователи из MIT решили резко ускорить этот процесс с помощью ИИ–системы DefensePredictor и в результате нашли тысячи новых белков, которые помогают бактериям отражать атаки бактериофагов . Работа, на которую раньше могли уходить месяцы лабораторного отбора, теперь за считаные минуты сужается до набора самых перспективных кандидатов.

Для микробов защита от вирусов не факультативная опция, а вопрос выживания. Бактерии постоянно сталкиваются с бактериофагами, то есть вирусами, которые заражают именно бактериальные клетки. Самый известный механизм обороны в этой области, CRISPR–Cas , давно вышел за пределы микробиологии и превратился в один из главных инструментов современной биотехнологии. Изначально он нужен бактериям, чтобы разрезать вирусную ДНК и останавливать инфекцию, а в лабораториях ту же систему приспособили для точного редактирования генов.

Но CRISPR–Cas оказался лишь частью гораздо более широкого арсенала. За последние годы стало ясно, что у бактерий есть множество других антивирусных систем, и именно их поиск всё сильнее тормозился техническими ограничениями. Классический путь был медленным и утомительным. Учёные искали в геномах подозрительные участки рядом с уже известными защитными генами, затем вручную отбирали тысячи фрагментов ДНК и по одному проверяли, могут ли они реально помогать клетке отбиваться от вирусов. При таком подходе на один удачный результат приходилось огромное количество рутинной работы.

Команда MIT решила переложить основную часть отбора на машинное обучение. Для обучения DefensePredictor исследователи использовали 17 тысяч бактериальных геномов. Поскольку именно гены содержат инструкции по сборке белков, система сначала определяла, какие белки кодируются в каждом геноме, а затем анализировала их с помощью языковой модели для белков ESM2. По сути, ИИ учился читать белковые последовательности примерно так же, как языковая модель разбирает текст, только вместо слов и фраз у неё были молекулярные структуры и закономерности.