ИИ — это машина для плагиата. Claude выдал 96% "Гарри Поттера" слово в слово, лишив IT-гигантов последнего шанса оправдаться
NewsMakerМодели "зубрят" книги целиком, а не учатся на них. И это может стоит разработчикам миллионы.
Машинное обучение устроено так, что разработчики почти никогда не раскрывают, на каких именно данных обучали модель. Но вопрос о том, что внутри модели «осело» и можно ли это вытащить правильным запросом, давно перестал быть чисто академическим: тут и деньги, и суды, и этика, и приватность.
На этом фоне у крупных игроков, включая Anthropic, Google, OpenAI и Nvidia, накопилось уже больше 60 исков, связанных с подозрениями в использовании защищённого авторским правом контента при обучении без разрешения правообладателей. Компании вложили в эту гонку сотни миллиардов долларов, исходя из того, что их подход к данным законен.
Пока суды в США пытаются понять, где проходит граница «добросовестного использования» (fair use), один из ключевых вопросов звучит так: не «запомнила» ли модель фрагменты обучающих материалов буквально. То есть не закодировала ли она исходный текст в своих весах (параметрах, которые формируются во время обучения и определяют ответы) и не способна ли потом воспроизвести его по запросу. Для защиты fair use важна, среди прочего, «преобразующая» природа использования: добавляет ли система что-то новое, меняет ли характер оригинального произведения. И этот аргумент заметно слабее, если модель просто возвращает защищённый текст почти дословно и в большом объёме.
При этом сам факт того, что модель может что-то воспроизвести целиком или частично, ещё не делает правовую оценку автоматически однозначной. Об этом, в частности, писал исследователь Николас Карлини: ситуация сложнее, чем «выдал текст значит виноват», и юристы смотрят на набор факторов.
Машинное обучение устроено так, что разработчики почти никогда не раскрывают, на каких именно данных обучали модель. Но вопрос о том, что внутри модели «осело» и можно ли это вытащить правильным запросом, давно перестал быть чисто академическим: тут и деньги, и суды, и этика, и приватность.
На этом фоне у крупных игроков, включая Anthropic, Google, OpenAI и Nvidia, накопилось уже больше 60 исков, связанных с подозрениями в использовании защищённого авторским правом контента при обучении без разрешения правообладателей. Компании вложили в эту гонку сотни миллиардов долларов, исходя из того, что их подход к данным законен.
Пока суды в США пытаются понять, где проходит граница «добросовестного использования» (fair use), один из ключевых вопросов звучит так: не «запомнила» ли модель фрагменты обучающих материалов буквально. То есть не закодировала ли она исходный текст в своих весах (параметрах, которые формируются во время обучения и определяют ответы) и не способна ли потом воспроизвести его по запросу. Для защиты fair use важна, среди прочего, «преобразующая» природа использования: добавляет ли система что-то новое, меняет ли характер оригинального произведения. И этот аргумент заметно слабее, если модель просто возвращает защищённый текст почти дословно и в большом объёме.
При этом сам факт того, что модель может что-то воспроизвести целиком или частично, ещё не делает правовую оценку автоматически однозначной. Об этом, в частности, писал исследователь Николас Карлини: ситуация сложнее, чем «выдал текст значит виноват», и юристы смотрят на набор факторов.