ИИ-модели на диете из жести. Что не так с тем, как Amazon «кормит» свои нейросети

Почему бесконтрольный сбор данных внезапно стал угрозой для безопасности детей.

Развитие искусственного интеллекта всё чаще сопровождается вопросами не только о технологиях, но и о качестве данных, на которых строятся современные цифровые системы. Новый эпизод вокруг Amazon показал , что масштабный сбор информации в интернете может приводить к крайне тревожным последствиям.

В 2025 году компания Amazon во время формирования наборов данных для обучения ИИ обнаружила сотни тысяч изображений с предполагаемыми материалами сексуального насилия над детьми. Контент был выявлен при анализе внешних веб-источников, используемых для обучения алгоритмов. В результате корпорация направила более миллиона уведомлений в Национальный центр по делам пропавших и эксплуатируемых детей США, что значительно превышает показатели других технологических компаний.

Однако такой объём обращений создал дополнительную проблему для правоохранительных органов. В переданных материалах отсутствовали данные о происхождении контента, что существенно осложнило поиск жертв и расследование конкретных случаев. Руководство линии CyberTipline при NCMEC указывало, что большая часть сообщений от Amazon не даёт возможности для реальных действий, поскольку невозможно определить источник и цепочку распространения незаконных материалов.

Ситуация высветила более широкий системный риск. Массовый сбор данных из открытого интернета, который используется для обучения генеративных моделей и других ИИ -систем, нередко строится по принципу «собрать всё подряд, а разбираться потом». Такой подход означает, что в обучающие выборки могут попадать не только легальные и нейтральные материалы, но и тяжёлый незаконный контент, включая сцены насилия над детьми.

На фоне этого другие крупные игроки рынка, включая Meta * и Google , демонстрируют более детализированный формат отчётности, который позволяет следственным органам получать больше контекста для расследований. Аналитик организации Thorn Дэвид Раст-Смит отмечал, что при бездумном сборе интернет-данных подобные материалы неизбежны, а ключевой вопрос в том, что для компаний важнее, скорость разработки ИИ или безопасность и ответственность при работе с данными.

История с Amazon показывает, что проблемы обучения искусственного интеллекта выходят далеко за рамки технологий и качества алгоритмов. Они напрямую связаны с этикой, ответственностью и последствиями методов сбора информации, на которых строятся современные цифровые продукты. Эти же вопросы всё чаще встают и для Google, которая активно развивает собственные ИИ-подходы.

* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.