Слишком умная для биотеррористов. OpenAI показала нейросеть, которую страшно выпускать в интернет

Модель GPT-Rosalind показала экспертный уровень в тестах на биологическое рассуждение.

OpenAI решила зайти в биологию не с универсальной моделью на все случаи жизни, а с узким инструментом под реальные задачи исследователей. Компания представила GPT-Rosalind , большую языковую модель, которую обучали на самых распространенных биологических рабочих процессах и на работе с крупными открытыми базами данных. Название отсылает к Розалинд Франклин , одной из ключевых фигур в истории молекулярной биологии.

Разработчики говорят, что GPT-Rosalind должна помочь там, где современная биология давно уперлась в масштаб и сложность. За десятилетия геномных исследований и белковой биохимии ученые накопили такие массивы данных, что одному человеку уже трудно охватить весь нужный контекст. К проблеме объема добавляется и другая трудность: биология давно распалась на множество узких направлений со своим языком, методами и массивами публикаций. Генетик, который внезапно выходит на тему работы гена в клетках мозга, может быстро столкнуться с огромным пластом нейробиологических исследований, в котором трудно разобраться без дополнительной помощи.

По словам OpenAI, модель обучили на 50 самых распространенных биологических процессов и дополнительно научили обращаться к основным публичным источникам научной информации. После такой настройки GPT-Rosalind может предлагать вероятные биологические пути, связывать генотип с фенотипом через известные регуляторные механизмы, делать выводы о возможных структурных или функциональных свойствах белков и помогать с отбором потенциальных мишеней для лекарств.

Компания отдельно подчеркивает, что пыталась ослабить типичную проблему языковых моделей, когда система слишком охотно соглашается с пользователем и выдает чрезмерно уверенные советы. GPT-Rosalind сделали более скептичной, чтобы модель чаще указывала на слабые гипотезы и сомнительные цели для разработки препаратов. OpenAI также говорит о способности системы проходить сложные многошаговые цепочки рассуждений и ссылается на результаты нескольких тестов, где модель показала экспертный уровень.

Главный вопрос пока никуда не делся: насколько надежно GPT-Rosalind отделяет полезные научные выводы от уверенно звучащих ошибок. Проблема галлюцинаций остается одной из самых болезненных для LLM, а в научной работе цена такой ошибки особенно высока. Поэтому вокруг новой системы почти наверняка быстро появятся и восторженные отзывы о неожиданных находках, и примеры грубых промахов, когда модель предложит биологически бессмысленный ход.

По этой причине OpenAI не открывает доступ всем желающим. Компания опасается, что специализированную модель можно использовать во вред, например для задач, связанных с повышением заразности вирусов. Сейчас подать заявку на работу с GPT-Rosalind могут только организации из США в рамках доверенной схемы доступа, причем круг пользователей OpenAI собирается дополнительно ограничивать. Для более широкой аудитории компания обещает выпустить урезанный плагин Life Sciences Research Plugin.

На рынке уже появлялись языковые модели и агентные системы для науки, но большинство таких решений старались охватить сразу несколько дисциплин. GPT-Rosalind выглядит иначе: OpenAI делает ставку именно на биологию и на глубокую настройку под задачи лабораторий и исследовательских групп. Насколько узкая специализация даст реальное преимущество, станет понятно только после первых независимых отзывов и практической работы с моделью.