Анонимности в сети конец. Нейросети научились связывать обрывки данных и вычислять автора
NewsMakerАлгоритмам хватит пары косвенных улик, чтобы раскрыть вашу личность.
Большие языковые модели научились делать то, что раньше требовало долгой ручной работы и внимательного анализа разрозненных данных. Новое исследование показало, что современные ИИ-системы способны устанавливать личность человека по нескольким анонимным публикациям в интернете и делать это в масштабах целых платформ.
Работу представил Саймон Лермен. В статье «Large-Scale Online Deanonymization with LLMs» он оценил, насколько эффективно модели сопоставляют анонимные профили с реальными людьми. Проверку провели на данных Hacker News, Reddit, LinkedIn и на обезличенных интервью учёных. Метод продемонстрировал высокую точность и способность работать с десятками тысяч кандидатов одновременно.
Авторы напомнили, что человека можно идентифицировать по небольшому набору характеристик, однако раньше процесс ограничивался сложностью поиска и анализа неструктурированной информации. Теперь языковые модели извлекают из комментариев сведения о месте жительства, профессии и интересах, после чего ищут совпадения в открытых источниках. По словам Лермена, сочетание поиска по эмбеддингам и последующего логического анализа позволяет вернуть анонимному аккаунту реального владельца с высокой вероятностью.
Для оценки возможностей исследователи создали несколько тестовых сценариев. В одном случае брали профили пользователей Hacker News, которые ссылались на LinkedIn, удаляли прямые идентификаторы и предлагали модели восстановить соответствие. Система сначала отбирала сотню наиболее вероятных кандидатов, затем проводила дополнительную проверку и выбирала наиболее подходящий вариант.
Большие языковые модели научились делать то, что раньше требовало долгой ручной работы и внимательного анализа разрозненных данных. Новое исследование показало, что современные ИИ-системы способны устанавливать личность человека по нескольким анонимным публикациям в интернете и делать это в масштабах целых платформ.
Работу представил Саймон Лермен. В статье «Large-Scale Online Deanonymization with LLMs» он оценил, насколько эффективно модели сопоставляют анонимные профили с реальными людьми. Проверку провели на данных Hacker News, Reddit, LinkedIn и на обезличенных интервью учёных. Метод продемонстрировал высокую точность и способность работать с десятками тысяч кандидатов одновременно.
Авторы напомнили, что человека можно идентифицировать по небольшому набору характеристик, однако раньше процесс ограничивался сложностью поиска и анализа неструктурированной информации. Теперь языковые модели извлекают из комментариев сведения о месте жительства, профессии и интересах, после чего ищут совпадения в открытых источниках. По словам Лермена, сочетание поиска по эмбеддингам и последующего логического анализа позволяет вернуть анонимному аккаунту реального владельца с высокой вероятностью.
Для оценки возможностей исследователи создали несколько тестовых сценариев. В одном случае брали профили пользователей Hacker News, которые ссылались на LinkedIn, удаляли прямые идентификаторы и предлагали модели восстановить соответствие. Система сначала отбирала сотню наиболее вероятных кандидатов, затем проводила дополнительную проверку и выбирала наиболее подходящий вариант.