ИИ-модели на диете из жести. Что не так с тем, как Amazon «кормит» свои нейросети
NewsMakerПочему бесконтрольный сбор данных внезапно стал угрозой для безопасности детей.
Развитие искусственного интеллекта всё чаще сопровождается вопросами не только о технологиях, но и о качестве данных, на которых строятся современные цифровые системы. Новый эпизод вокруг Amazon показал , что масштабный сбор информации в интернете может приводить к крайне тревожным последствиям.
В 2025 году компания Amazon во время формирования наборов данных для обучения ИИ обнаружила сотни тысяч изображений с предполагаемыми материалами сексуального насилия над детьми. Контент был выявлен при анализе внешних веб-источников, используемых для обучения алгоритмов. В результате корпорация направила более миллиона уведомлений в Национальный центр по делам пропавших и эксплуатируемых детей США, что значительно превышает показатели других технологических компаний.
Однако такой объём обращений создал дополнительную проблему для правоохранительных органов. В переданных материалах отсутствовали данные о происхождении контента, что существенно осложнило поиск жертв и расследование конкретных случаев. Руководство линии CyberTipline при NCMEC указывало, что большая часть сообщений от Amazon не даёт возможности для реальных действий, поскольку невозможно определить источник и цепочку распространения незаконных материалов.
Ситуация высветила более широкий системный риск. Массовый сбор данных из открытого интернета, который используется для обучения генеративных моделей и других ИИ -систем, нередко строится по принципу «собрать всё подряд, а разбираться потом». Такой подход означает, что в обучающие выборки могут попадать не только легальные и нейтральные материалы, но и тяжёлый незаконный контент, включая сцены насилия над детьми.
Развитие искусственного интеллекта всё чаще сопровождается вопросами не только о технологиях, но и о качестве данных, на которых строятся современные цифровые системы. Новый эпизод вокруг Amazon показал , что масштабный сбор информации в интернете может приводить к крайне тревожным последствиям.
В 2025 году компания Amazon во время формирования наборов данных для обучения ИИ обнаружила сотни тысяч изображений с предполагаемыми материалами сексуального насилия над детьми. Контент был выявлен при анализе внешних веб-источников, используемых для обучения алгоритмов. В результате корпорация направила более миллиона уведомлений в Национальный центр по делам пропавших и эксплуатируемых детей США, что значительно превышает показатели других технологических компаний.
Однако такой объём обращений создал дополнительную проблему для правоохранительных органов. В переданных материалах отсутствовали данные о происхождении контента, что существенно осложнило поиск жертв и расследование конкретных случаев. Руководство линии CyberTipline при NCMEC указывало, что большая часть сообщений от Amazon не даёт возможности для реальных действий, поскольку невозможно определить источник и цепочку распространения незаконных материалов.
Ситуация высветила более широкий системный риск. Массовый сбор данных из открытого интернета, который используется для обучения генеративных моделей и других ИИ -систем, нередко строится по принципу «собрать всё подряд, а разбираться потом». Такой подход означает, что в обучающие выборки могут попадать не только легальные и нейтральные материалы, но и тяжёлый незаконный контент, включая сцены насилия над детьми.