Cómo anonimizar ficheros de datos

En este post vamos a hacer un breve repaso de las distintas técnicas que pueden ser empleadas cuando se quiere anonimizar una base de datos que inicialmente contiene datos de carácter personal. Según el diccionario de la Real Academia, anonimizar  es “expresar un dato relativo a entidades o personas, eliminando la referencia a su identidad.”

Anonimizar los datos tiene la ventaja de que, si se realiza de una manera efectiva, elimina en gran medida las restricciones que la legislación de protección datos implica para el tratamiento.  Algunos ejemplos típicos en donde estas técnicas deben ser aplicadas:

  • Una empresa online desea compartir datos del comportamiento de compra de su base de datos de clientes con las bases de datos de otras empresas para realizar un estudio de analítica predictiva, sin tener que solicitar el permiso expreso de cada cliente para la realización del estudio, ni comprometer la privacidad de los datos.
  • Un organismo público realiza un estudio sobre los abortos llevados a cabo en clínicas privadas del país, para lo que necesita recibir y consolidar la información sobre las intervenciones llevadas a cabo por cada una de las clínicas que intervienen en el estudio.

La técnica más intuitiva de anonimizar un conjunto de datos personales es eliminar cualquier identicador directo de la persona; por ejemplo el nombre, el número de la seguridad social, pasaporte, etc. Por ejemplo, supongamos una lista con información sobre el salario de distintos directivos de una organización:

EXHIBIT_01

Si eliminamos los identificadores directos (en este caso el número de documento nacional de identidad –DNI-,  el nombre-apellidos y dirección),  obtenemos la tabla número 2:

EXHIBIT_02

El riesgo de re-identificación

Sin embargo, aun habiendo eliminado los identificadores directos, el fichero de la tabla 2 aún contiene datos personales. La razón es que la legislación de protección de datos considera dato personal cualquier información que permita identificar a un individuo directa o indirectamente.

Desde esta perspectiva, la información de la tabla 2 permite identificar indirectamente a los individuos a los que hace referencia, si combinamos la información en la tabla con algún otro tipo de información adicional disponible (por ejemplo un directorio público de directivos de la empresa en donde se pueda consultar la fecha de nacimiento); Es decir, la tabla 2 contiene datos personales.

Al proceso de identificar a un individuo a partir de la combinación de piezas de información separadas se le conoce como re-identificación.

Es muy importante que cuando se vaya a llevar a cabo la anonimización de un fichero se evalúe cuidadosamente el riesgo de re-identificación, tomando en consideración quien va a ser el destinatario de la información y su nivel de acceso a información adicional presente y futura. También ha de tenerse en cuenta, aun a pesar de la baja probabilidad estimada de ocurrencia, el daño potencial que podría producirse  en caso de ser factible la re-identificación.

Algunas técnicas de anonimización

Revisaremos ahora las distintas técnicas disponibles que pueden ser usadas aisladamente o de manera combinada de acuerdo a las particularidades de cada caso:

Desidentificación

Consiste en eliminar del conjunto de datos todos aquellos identificadores directos del individuo. Algunos identificadores directos típicos son el nombre y domicilio, número de teléfono o el  número del documento nacional de identidad.

Cuando en el fichero de información permanece otro tipo de información que, aunque no siendo identificadores directos, pueden permitir  la re-identificación al ser combinados con otra información adicional, entonces se habla de una  desidentificación parcial del fichero. A este tipo de datos que podrían favorecer la identificación indirecta se les suele llamar cuasi-identificadores. La fecha de nacimiento es un ejemplo típico de este tipo de cuasi-identificador.

La desidentificación parcial de un fichero puede ser una opción válida desde el punto de vista de preservación de la privacidad, cuando es distribuido o facilitado a alguien que no disponga de la información adicional necesaria para llevar a cabo la re-identificación.

Pseudonimización

Es una técnica de desidentificación parcial que consiste en sustituir los identificadores directos por un código de referencia o pseudónimo, de modo que es posible la identificación en base a este único pseudónimo, pero no en base a otro dato.

Una variante de la pseudonimización es la modificación determinística, consistente en sustituir el valor de un dato identificador original por un pseudónimo de manera consistente, de modo que  el valor original es sustituido por el mismo valor alternativo en todos los casos en donde aparece. Ello permite que el destinatario del fichero pueda identificar los distintos registros correspondientes a un mismo individuo en el contexto del fichero analizado, pero no pueden hacer una identificación en base a ningún otro atributo al carecer de la información adicional que permite asociar el valor del pseudónimo con otro tipo de identificadores directos.

Entre distintas técnicas que se suelen usar para generar pseudónimos podemos encontrar:

  • Sustituir el dato original por la versión encriptada del mismo (por ejemplo usando el algoritmo AES). Es imprescindible mantener en secreto la clave de cifrado empleada. Otra variante que usa criptografía, consiste en sustituir el dato original por el hash cifrado (ej: HMAC) del valor original.
  • Tokenización: consiste en crear una tabla de códigos arbitrarios que se asocian de manera consistente con los valores originales. Implica que le mismo valor original es siempre sustituido por el mismo token, lo que permite mantener la unicidad de los registros originales. Es imprescindible mantener en secreto esta tabla.
  • Aleatorización: Es un método similar a la tokenización, pero en este caso un código puede ser asociado a diferentes valores en el fichero original; es decir, no mantiene la unicidad de los registros.

 Eliminación de registros

Cuando las características de la población de la que se ha obtenido el fichero de datos hace que determinados individuos puedan ser fácilmente identificables (ej: en un fichero de pacientes de una institución, en donde sólo hay un paciente diagnosticado con un determinado trastorno), una alternativa es eliminar del fichero original estos registros.

Datos derivados

Consiste en sustituir un valor que podría permitir la identificación de un individuo (ej: la fecha de nacimiento), por otro valor derivado que presenta menor granularidad, dificultando la individuación (ej: la edad o la reclasificación en valores como joven, maduro, etc..).

Otro ejemplo del uso de datos derivados es el de sustitución del domicilio por el del código postal o distrito de residencia.

Reclasificación en horquillas de datos

Es una variante de los datos derivados consistente en definir para un determinado identificador horquillas de valores y sustituir el valor concreto del dato por el de la categoría de la horquilla en donde se ubica. Por ejemplo, podríamos sustituir el valor de edad = 34 años por el de categoría = entre 30 y 40 años.

Redondeo

Consiste en redondear los datos numéricos  al alza o la baja, de modo que dificulte la re-identificación.

Perturbación/Ruido

Consiste, para el caso de datos numéricos, en añadir o substraer aleatoriamente una determinada cantidad al valor original. La técnica de adición de ruido, consiste en añadir o substraer una cantidad extraída de una distribución de datos aleatorios con media 0 y una varianza determinada.

Micro-agregación

Cuando un determinado grupo de individuos puede ser fácilmente identificado en virtud de los valores de determinada variable (ej: salarios más altos), el valor de esta variable puede ser sustituido en estos registros por el valor medio de esa variable para todos los registros del fichero.

Intercambio de datos

Consiste en intercambiar los valores de determinadas variables entre pares de registros. Esta técnica es aplicable en determinado tipo de variables que no afecten directamente al objeto de estudio de los datos, ni afecten, tampoco a la distribución original de los datos.

¿Cuándo y cómo es factible usar la anonimización desde la perspectiva de la legislación de protección de datos?

La anonimización es factible cuando:

  • Sea inviable obtener el consentimiento de cada individuo para la realización del procesamiento.
  • El propósito del tratamiento de datos que se vaya a realizar es legítimo y ético.
  • Se pueda eliminar de manera efectiva el riesgo de re-identificación.
  • Se haya realizado un análisis de impacto en la privacidad del tratamiento, en el que se haya evaluado correctamente, en base a las técnicas de anonimización que se vayan a usar, las posibles consecuencias negativas para los individuos afectados en el procesamiento de datos.
  • Ni el proceso de anonimización, ni el posterior tratamiento puedan tener consecuencias negativas para ningún individuo.
  • Se haya establecido un mecanismo general por el que los individuos puedan expresar su objeción a ser incluidos en este tipo de procesamientos.
  • Cuando la difusión de los datos va a ser realizada no al público en general, sino a un grupo cerrado de entidades, entonces es recomendable establecer un contrato con las condiciones de tratamiento y en donde se establezca la obligatoriedad de mantener en secreto las claves de anonimización usadas. Además, puede establecerse el plazo y el modo en que la información se destruirá una vez cumplido su propósito.

Deja un comentario