09 septiembre 2009

Reidentificación: identificando personas en bases de datos anónimas

reidentificationEn el año 2006, AOL fue requerida por el gobierno estadounidense junto con otras empresas para que facilitasen un fichero anonimizado con veinte millones de búsquedas procedentes de seiscientos cincuenta y siete mil usuarios identificados mediante claves numéricas, con el propósito de valorar el impacto de la pornografía infantil. Tras cumplir con la solicitud, AOL tuvo la ocurrencia de demostrar su apertura publicando en Internet ese fichero para su uso por la comunidad científica: total, estando ya el fichero convenientemente anonimizado y libre de toda información personal, ¿qué podía pasar?

La sorpresa no se hizo esperar: en pocos días, Thelma Arnold, una mujer de 62 años residente en Lilburn, una pequeña localidad del estado de Georgia, recibía la visita en su casa de un periodista que le preguntaba si una determinada lista de búsquedas era efectivamente suya. Una pequeña investigación a partir de las búsquedas de la mujer había revelado datos suficientes como para identificarla con precisión. El asunto, que terminó con la salida de la Chief Technology Officer de AOL, demostraba con claridad que las implicaciones de la revelación de datos en la privacidad no terminan en el momento en que se eliminan del fichero datos estrictamente personales como nombre, dirección, IP o número de identificación.

La reidentificación es precisamente eso, el análisis de ficheros anonimizados con el fin de identificar a personas específicas a partir de ellos. Un artículo de Ars Technica, ‘Anonymized’ data really isn’t—and here’s why not, revela que, en realidad, un 87% de los norteamericanos pueden ser identificados en una base de datos utilizando únicamente tres datos: código postal, sexo y fecha de nacimiento, no incluidos en los datos de identificación que habitualmente se eliminan de este tipo de ficheros supuestamente anonimizados. Un trabajo de investigación de Paul Ohm recoge las conclusiones de lo que denomina “la promesa rota de la privacidad”: en la práctica, cualquier investigación medianamente seria es capaz de identificar a una persona a partir de la información fragmentaria procedente de ficheros supuestamente anonimizados o de patrones de uso desarrollados en muchas de sus actividades. Aquel usuario que buscaba obsesivamente formas de matar a su mujer debería estar preocupado: en caso de llegar finalmente a cometer el crimen, sería identificado sin demasiados problemas. La respuesta es, según el investigador, sumamente clara: “los datos pueden ser útiles o perfectamente anónimos, pero nunca ambas cosas“.

La mayor parte de los requisitos para el almacenamiento de datos se reducen a la eliminación de la denominada Personally Identifiable Information (PII), un conjunto de datos determinado, pero a todas luces, claramente insuficiente. Para empresas como Google, que almacenan datos indefinidamente tras su “anonimización”, las implicaciones son importantes, porque en realidad almacenan datos que serían perfectamente capaces de conducir a una identificación inequívoca aunque haya transcurrido más tiempo del período inicialmente pactado con sus usuarios. Datos que, pensando en el tipo de información que hoy en día manejamos en la red, abarcan un conjunto de cuestiones tan amplio, que puede llegar a dar vértigo, no necesariamente por lo secreto, sino por lo privado de los mismos: datos que no necesariamente busco ocultar, pero sobre los que sí tengo una determinada expectativa de privacidad. A medida que compartimos más datos y que éstos quedan registrados en más sitios, la necesidad de ser exquisitos en su protección y custodia crece, y la expectativa de privacidad disminuye, sin que parezca existir ninguna solución sencilla: incrementar los requisitos legales en el almacén de la información conduce a hacerla inservible. ¿Signo de los tiempos? ¿Resignación? ¿Generacional? ¿Metáfora de la aldea pequeña? Sin duda, algo sobre cuyas consecuencias no hemos pensado suficiente aún.

(Enlace a la entrada original - Licencia)

0 comentarios:

Publicar un comentario

ATENCIÓN: Google ha metido en Blogger un sistema antispam automático que clasifica como spam casi lo que le da la gana y que no se puede desactivar.

Si después de hacer tu comentario este no aparece, no se trata del espíritu de Dans que anda censurando también aquí, es que se ha quedado en la cola de aceptación. Sacaré tu mensaje de ahí tan pronto como pueda, si bien el supersistema este tampoco me avisa de estas cosas, por lo que tengo que estar entrando cada cierto tiempo a ver si hay alguno esperando. Un inventazo, vaya.