«Что читала ваша нейросеть?» Разработчиков российского ИИ обяжут раскрыть источники обучающих данных

Почему бесплатные данные для обучения ИИ в России могут стать вне закона.

Разработчиков отечественных моделей искусственного интеллекта могут обязать раскрывать сведения о наборах данных, на которых нейросеть обучалась или тестировалась. Такая инициатива обсуждается отраслевыми ассоциациями, компаниями в сфере ИИ и профильным регулятором в рамках подготовки законопроекта об ИИ, сообщают «Ведомости» со ссылкой на двух участников обсуждения из разных компаний.

По словам одного из собеседников, разработчик должен будет предоставлять достаточно подробный набор сведений. В одной из рабочих версий законопроекта Минцифры упоминалось, что потребуется указывать наименование набора данных, дату создания, назначение использования, формат, объем и происхождение. Где именно будет собираться эта информация, пока не определено. Среди вариантов обсуждаются отдельный реестр отечественного ИИ или реестр отечественных наборов данных.

У инициативы есть предыстория. В июне 2025 года замминистра цифрового развития Александр Шойтов говорил о планах создать реестр доверенного ИИ для применения на объектах критической инфраструктуры, но дальнейшая судьба проекта остается неизвестной. При этом в декабре 2025 года правительство утвердило требования к программно-аппаратным комплексам для ИИ, которые нужны для включения таких решений в реестр отечественного ПО. Иных реестров для ИИ-технологий в стране пока нет.

Сама инициатива раскрытия датасетов, как отмечают участники обсуждений, пока не вошла в текущую версию законопроекта, поскольку документ носит рамочный характер и не включает такие детали. Это подтвердили и в Минцифры: в актуальной редакции нет положений о раскрытии данных, на которых обучаются модели.

Параллельно правительство прорабатывает общую рамку регулирования ИИ. В ней планируют определить критерии «российской» нейросети, вопросы авторского права, маркировку ИИ-контента, а также права, обязанности и ответственность. Также обсуждается гибкий подход к рискам: в том числе меры по предотвращению использования ИИ в преступных целях и идея считать применение ИИ отягчающим обстоятельством при правонарушениях.

В отрасли предупреждают, что полное и точное описание огромных массивов обучающих данных в формате реестра может потребовать ресурсов, несоразмерных эффекту, либо свестись к формальному перечислению без аналитической ценности. При этом плюсы инициативы очевидны: рост доверия к моделям, возможность независимой оценки качества и появление единых стандартов отчетности. Среди рисков называют дополнительную нагрузку на разработчиков и возможное замедление внедрения сервисов из-за того, что технологии развиваются быстрее регулирования.

Отдельный блок дискуссии связан с деньгами и авторским правом. Раскрытие источников данных может подтолкнуть формирование коммерческого рынка данных и вывести из серой зоны практику обучения моделей на максимально доступных массивах без согласования с владельцами. В таком случае рынку потребуются механизмы лицензирования, а компаниям придется заметно аккуратнее подходить к отбору данных и правам на контент.