caso de éxito

Cuantificación de la probabilidad de reidentificación de datos personales anonimizados

Cliente

LANTK S.A.M.P.

Sector

Administración Pública

Capacidades utilizadas

Desarrollo en Python de una herramienta de cálculo de probabilidad de reidentificación de datos personales anonimizados basada en la obtención de k-anonimidad, l-diversidad y t-proximidad.

Situación

Proyecto en el que el cliente debe ceder a entidades externas datos de personas dependientes. Estos datos, de categoría especial según lo establecido en el Reglamento general de protección de datos, son anonimizados de manera previa a la cesión, de manera que a priori no se pueda conocer la persona a la que pertenecen. No obstante, no se dispone de una medida cuantitativa de la posibilidad de reidentificación de estos datos disociados por parte de un actor malicioso o de las posibles inferencias o deducciones que este pudiera llevar a cabo. De este modo, no se puede responder de manera rigurosa a la pregunta ¿el proceso de anonimización de los datos realizado es suficiente para que no se puedan reidentificar las personas afectadas?

Tareas

El objetivo principal del proyecto es cuantificar la probabilidad de reidentificación de un dataset de datos anonimizados con más de 40 atributos y más de 39.000 registros. En el estudio se decidió basar el cálculo para este objetivo en las medidas de k-anonimidad, l-diversidad y t-proximidad, definidas en el Dictamen 05/2014 sobre técnicas de anonimización del Grupo de Trabajo sobre Protección de Datos del Artículo 29.

Acción

Si bien existen determinadas herramientas software que realizan el proceso de anonimización y calculan determinados parámetros de riesgo, ninguna proporcionaba el detalle requerido para el estudio. Por este motivo, se desarrolló en el ámbito del proyecto un software específico que cuantificaba la probabilidad de reidentificación de los datos anonimizados en base a los parámetros anteriormente indicados.

Resultado

Como resultado de los cálculos realizados, se determinó que tras un primer proceso de anonimización que eliminaba simplemente aquellos datos que eran directamente identificables, más del 50% de los registros podrían ser asociados a una única persona con una certeza del 100% si la persona atacante tenía la suficiente información. Por ello, se propusieron diversas alternativas para reducir ese porcentaje por debajo del 1%, indicando en cada caso numéricamente las probabilidades de reidentificación asociadas. De este modo, se daba la posibilidad de eliminar estos registros sin afectar significativamente a la calidad de los datos cedidos. Como consecuencia, las personas responsables del tratamiento de los datos tuvieron una valoración objetiva de la efectividad del proceso de anonimización realizado previamente a la cesión de los datos. Esto les proporcionó certeza de cara a poder validar el proceso de anonimización realizado en el ámbito de una evaluación de impacto en el tratamiento de datos personales.