Інтернет довгі роки був притулком для анонімних користувачів, які ховалися за псевдонімами. Дехто робив це, щоб вільно висловлюватися, дехто – з менш благородних причин. Але ера анонімності в мережі може наближатися до кінця. Нове дослідження, опубліковане на сервері arXiv, показує, що сучасні великі мовні моделі (LLM) здатні ідентифікувати людей за їхніми анонімними акаунтами масштабно і ефективно.
Раніше вважалося, що декодувати анонімність теоретично можливо, але на практиці це надто складно, дорого й займе багато часу. Проте автори дослідження припустили, що потужність сучасних LLM вже дозволяє “розпізнавати” користувачів у мережі.
Для перевірки цієї гіпотези команда створила автоматизовану систему, яка імітує рішення людського дослідника. Спершу ШІ аналізує історію публікацій користувача на платформах, таких як Reddit або Hacker News. Він вивчає необроблений текст – коментарі, жарти, освіту та характерні мовні особливості. Потім ці дрібні дані перетворюються на математичний профіль користувача, щоб знайти потенційні збіги серед мільйонів інших профілів на відкритому вебі чи на сайтах типу LinkedIn.
Коли ШІ знаходить можливі збіги, він оцінює докази того, що обидва акаунти належать одній особі, і присвоює їм оцінку впевненості. Якщо впевненість низька, система нічого не повідомляє, щоб уникнути хибних висновків.
Тестування на майже 1 000 профілях LinkedIn показало, що система успішно зв’язує акаунти з точністю до 67% при 90% достовірності, тоді як класичні методи без ШІ показували значно нижчі результати. Модель також змогла ідентифікувати користувачів на Reddit, навіть якщо вони розподіляли активність між кількома акаунтами та різними періодами часу. Вартість обчислень для успішного зв’язування одного акаунта склала лише 1–4 долари.
“Практична анонімність, яка раніше захищала користувачів, більше не працює,” – зазначають дослідники. “Псевдонімність не забезпечує значущого захисту в інтернеті. Користувачі, які постять під постійними іменами, повинні припускати, що їхні акаунти можуть бути пов’язані з реальними особами, і ймовірність цього зростає з кожним новим фрагментом інформації, який вони публікують.”
Результати дослідження свідчать, що такі системи можуть знайти застосування у правозахисних органах, кібербезпеці та інших галузях, де важлива ідентифікація користувачів. Нові технології ставлять під сумнів фундаментальне уявлення про анонімність в інтернеті, показуючи, що невидимість онлайн стає дедалі важче зберегти.