Квазі-ідентифікатор

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Квазі-ідентифікатор — це фрагменти інформації, які самі по собі не є унікальними ідентифікаторами[en], але досить добре корелюють із сутністю, щоб їх можна було об'єднати з іншими квазі-ідентифікаторами для створення унікального ідентифікатора.[1]

Таким чином, квазі-ідентифікатори, будучі об'єднаними, можуть стати персональною інформацією. Цей процес називається повторна ідентифікація[en]. Як приклад, Латанія Свіні[en] показала, що, незважаючи на те, що ні стать, ні дата народження, ні поштовий індекс однозначно не ідентифікують особу, поєднання всіх трьох є достатнім, щоб ідентифікувати 87 % осіб у Сполучених Штатах.[2]

Термін був введений Торе Даленіусом у 1986 році.[3] Відтоді квазі-ідентифікатори були основою кількох атак на оприлюднені дані. Наприклад, Суїні зв'язав медичні записи з загальнодоступною інформацією, щоб знайти медичні записи тодішнього губернатора штату Массачусетс, використовуючи унікальні квазіідентифікатори,[4][5] а Суіні, Абу і Вінн використовували публічні списки виборців, щоб повторно ідентифікувати учасників проекту «Особистий геном».[6] Крім того, Арвінд Нараянан і Віталій Шматіков обговорили квазі-ідентифікатори для вказівки статистичних умов для деанонімізації даних, опублікованих Netflix.[7]

Мотвані та Ін попереджають про потенційні порушення приватності, причиною яких можуть стати публікації великих обсягів державних та бізнес-даних, що містять квазі-ідентифікатори.[8]

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

  1. Glossary of Statistical Terms: Quasi-identifier. OECD. 10 листопада 2005. Архів оригіналу за 7 Листопада 2013. Процитовано 29 вересня 2013.
  2. Sweeney, Latanya. Simple demographics often identify people uniquely. Carnegie Mellon University, 2000. http://dataprivacylab.org/projects/identifiability/paper1.pdf [Архівовано 22 Березня 2022 у Wayback Machine.]
  3. Dalenius, Tore. Finding a Needle In a Haystack or Identifying Anonymous Census Records. Journal of Official Statistics, Vol.2, No.3, 1986. pp. 329—336. http://www.jos.nu/Articles/abstract.asp?article=23329 [Архівовано 2017-08-08 у Wayback Machine.]
  4. Anderson, Nate. Anonymized data really isn't—and here's why not. Ars Technica, 2009. https://arstechnica.com/tech-policy/2009/09/your-secrets-live-online-in-databases-of-ruin/ [Архівовано 15 Березня 2022 у Wayback Machine.]
  5. Barth-Jones, Daniel C. The're-identification'of Governor William Weld's medical information: a critical re-examination of health data identification risks and privacy protections, then and now. Then and Now (June 4, 2012) (2012).
  6. Sweeney, Latanya, Akua Abu, and Julia Winn. «Identifying participants in the personal genome project by name.» Available at SSRN 2257732 (2013).
  7. Narayanan, Arvind and Shmatikov, Vitaly. Robust De-anonymization of Large Sparse Datasets. The University of Texas at Austin, 2008. https://www.cs.utexas.edu/~shmat/shmat_oak08netflix.pdf [Архівовано 26 Січня 2021 у Wayback Machine.]
  8. Rajeev Motwani and Ying Xu (2008). Efficient Algorithms for Masking and Finding Quasi-Identifiers (PDF). Proceedings of SDM’08 International Workshop on Practical Privacy-Preserving Data Mining. Архів оригіналу (PDF) за 16 Січня 2022. Процитовано 15 Березня 2022.