На конференции USENIX эксперты Mozilla представили результаты исследования, результаты которого гласят, что рекламным компаниям достаточно информации о 50-150 любимых сайтах пользователя, чтобы составить надежный профиль этого человека. В сущности, анализ, проведенный специалистами, развеивает миф о том, что история просмотров, в том числе анонимная, абсолютно бесполезна для сетевых рекламодателей и аналитиков.
Данный анализ является своеобразным продолжением другого академического исследования, опубликованного в далеком 2012 году. В то время исследование было одним из крупнейших проектов по анализу конфиденциальности пользователей, а для его подготовки команда экспертов собрала и проанализировала историю браузеров более чем 380 000 человек.
Так, в период с января 2009 года по май 2011 года исследователи просили пользователей посетить тестовый сайт, где использовался CSS-код, позволяющий определить, какие сайты из предварительно подготовленного списка на 6000 доменов посещали участники эксперимента. Тогда удалось выяснить, что история браузера 97% пользователей содержала уникальный набор сайтов, что в итоге делало ее надежным вектором для фингерпринтинга.
Более того, когда участников исследования попросили зайти на тестовый сайт снова, эксперты сумели с первого раза идентифицировать пользователей повторно, основываясь на истории их браузеров. Уровень точности составил 38%, когда исследователи опирались на наборы данных, содержащие 50 самых популярных доменов у пользователей, и 70%, когда они анализировали наборы данных с 500 доменами.
Теперь исследователи Mozilla решили проверить, что изменилось с 2012 года, и остается ли история браузера надежным фундаментом для фингерпринтинга. Новый эксперимент проводился с 16 июля по 13 августа 2019 года, и в нем принимали участие пользователи Firefox. Более 52 000 человек согласились поучаствовать в исследовании и предоставили анонимные данные своих браузеров.
Так как на этот раз информация была взята непосредственно из Firefox, а не через специальную веб-страницу с CSS, данные оказались более точными и надежными. Кроме того, такую информацию о пользователях собирают практически все современные аналитические компании (через партнерские программы, мобильные приложения, рекламу и так далее).
Сбор данных осуществлялся в два этапа: в ходе первой недели пользователи делились историей своих браузеров, а на второй неделе специалисты Mozilla проверяли, смогут ли они повторно идентифицировать этих людей.
В общей сложности команда Mozilla собрала данные о 35 000 0000 посещенных сайтах на 660 000 уникальных доменах. При этом выяснилось, что в 99% случаев истории браузеров были уникальными для каждого пользователя. Эта уникальность позволила исследователям с легкость идентифицировать пользователей повторно на второй неделе эксперимента.
При этом точность «узнавания» была выше, чем в исследовании 2012 года. Так, эксперты пишут, что коэффициент повторной идентификации составил почти 50% для наборов данных, содержащих 50 доменов, а когда набор данных расширили до 150 доменов, коэффициент повторной идентификации вырос до 80%. Из этого исследователи делают вывод, что аналитическим фирмам и рекламным компаниям совсем не нужны длинные списки данных с историями просмотров. Пользователей выдают их любимые сайты, даже если данные анонимны, а URL-адреса усечены таким образом, чтобы удалить имена пользователей и оставить лишь основные домены.
Источник: xakep