Новое исследование вскрыло тревожную правду о DataComp CommonPool — одном из крупнейших открытых наборов данных для обучения ИИ. В этом хранилище, содержащем 12,8 миллиардов изображений, обнаружены миллионы сканов паспортов, кредитных карт, резюме и других документов с конфиденциальной информацией. При этом набор уже скачали более 2 миллионов раз, а аналогичные данные могли попасть в известные генеративные модели вроде Stable Diffusion.

Учёные проанализировали лишь 0,1% данных, но даже в этой небольшой выборке нашли сотни утечек:

  • Более 800 резюме с данными о здоровье и домашними адресами
  • Тысячи распознаваемых лиц (система размытия пропустила 102 миллиона фото)
  • Документы, по которым можно идентифицировать людей через соцсети

Проблема в том, что создатели CommonPool собирали данные автоматически, сканируя интернет с 2014 по 2022 год. Хотя набор позиционировался как исследовательский, его свободная лицензия позволяла коммерческое использование. При этом алгоритмы фильтрации оказались неэффективны — они пропускали не только лица, но и текстовую персональную информацию вроде номеров соцстрахования.

Сейчас удалить свои данные из набора практически невозможно — даже если файлы исчезнут из хранилища, они уже могли быть использованы для обучения ИИ. Исследователи бьют тревогу: современные законы о защите данных не учитывают такие сценарии, оставляя миллионы людей беззащитными перед утечкой личной информации в руки алгоритмов.