Enrique Dans sin censura: Reidentificación: identificando personas en bases de datos anónimas

09 septiembre 2009

Reidentificación: identificando personas en bases de datos anónimas

En el año 2006, AOL fue requerida por el gobierno estadounidense junto con otras empresas para que facilitasen un fichero anonimizado con veinte millones de búsquedas procedentes de seiscientos cincuenta y siete mil usuarios identificados mediante claves numéricas, con el propósito de valorar el impacto de la pornografía infantil. Tras cumplir con la solicitud, AOL tuvo la ocurrencia de demostrar su apertura publicando en Internet ese fichero para su uso por la comunidad científica: total, estando ya el fichero convenientemente anonimizado y libre de toda información personal, ¿qué podía pasar?

La sorpresa no se hizo esperar: en pocos días, Thelma Arnold, una mujer de 62 años residente en Lilburn, una pequeña localidad del estado de Georgia, recibía la visita en su casa de un periodista que le preguntaba si una determinada lista de búsquedas era efectivamente suya. Una pequeña investigación a partir de las búsquedas de la mujer había revelado datos suficientes como para identificarla con precisión. El asunto, que terminó con la salida de la Chief Technology Officer de AOL, demostraba con claridad que las implicaciones de la revelación de datos en la privacidad no terminan en el momento en que se eliminan del fichero datos estrictamente personales como nombre, dirección, IP o número de identificación.

La reidentificación es precisamente eso, el análisis de ficheros anonimizados con el fin de identificar a personas específicas a partir de ellos. Un artículo de Ars Technica, “‘Anonymized’ data really isn’t—and here’s why not“, revela que, en realidad, un 87% de los norteamericanos pueden ser identificados en una base de datos utilizando únicamente tres datos: código postal, sexo y fecha de nacimiento, no incluidos en los datos de identificación que habitualmente se eliminan de este tipo de ficheros supuestamente anonimizados. Un trabajo de investigación de Paul Ohm recoge las conclusiones de lo que denomina “la promesa rota de la privacidad”: en la práctica, cualquier investigación medianamente seria es capaz de identificar a una persona a partir de la información fragmentaria procedente de ficheros supuestamente anonimizados o de patrones de uso desarrollados en muchas de sus actividades. Aquel usuario que buscaba obsesivamente formas de matar a su mujer debería estar preocupado: en caso de llegar finalmente a cometer el crimen, sería identificado sin demasiados problemas. La respuesta es, según el investigador, sumamente clara: “los datos pueden ser útiles o perfectamente anónimos, pero nunca ambas cosas“.

La mayor parte de los requisitos para el almacenamiento de datos se reducen a la eliminación de la denominada Personally Identifiable Information (PII), un conjunto de datos determinado, pero a todas luces, claramente insuficiente. Para empresas como Google, que almacenan datos indefinidamente tras su “anonimización”, las implicaciones son importantes, porque en realidad almacenan datos que serían perfectamente capaces de conducir a una identificación inequívoca aunque haya transcurrido más tiempo del período inicialmente pactado con sus usuarios. Datos que, pensando en el tipo de información que hoy en día manejamos en la red, abarcan un conjunto de cuestiones tan amplio, que puede llegar a dar vértigo, no necesariamente por lo secreto, sino por lo privado de los mismos: datos que no necesariamente busco ocultar, pero sobre los que sí tengo una determinada expectativa de privacidad. A medida que compartimos más datos y que éstos quedan registrados en más sitios, la necesidad de ser exquisitos en su protección y custodia crece, y la expectativa de privacidad disminuye, sin que parezca existir ninguna solución sencilla: incrementar los requisitos legales en el almacén de la información conduce a hacerla inservible. ¿Signo de los tiempos? ¿Resignación? ¿Generacional? ¿Metáfora de la aldea pequeña? Sin duda, algo sobre cuyas consecuencias no hemos pensado suficiente aún.

(Enlace a la entrada original - Licencia)

0 comentarios:

Publicar un comentario

ATENCIÓN: Google ha metido en Blogger un sistema antispam automático que clasifica como spam casi lo que le da la gana y que no se puede desactivar.

Si después de hacer tu comentario este no aparece, no se trata del espíritu de Dans que anda censurando también aquí, es que se ha quedado en la cola de aceptación. Sacaré tu mensaje de ahí tan pronto como pueda, si bien el supersistema este tampoco me avisa de estas cosas, por lo que tengo que estar entrando cada cierto tiempo a ver si hay alguno esperando. Un inventazo, vaya.

Sobre este blog

Soy un tío cualquiera (no tengo blog, ni twitter, ni estoy en Facebook, ni nada que se le parezca) que en su momento cogió la afición a destapar, siempre con educación y de manera razonada, las barbaridades e incongruencias que suelta Enrique Dans a diario.

No es que le tenga manía personal, ni siquiera le conozco, y no tengo por costumbre criticar a la gente, cada cual tiene sus cosas, nadie es perfecto, y soy partidario del "vive y deja vivir". El problema es que este encantador de serpientes llamado Enrique Dans empieza a tener una cierta influencia en el mundo tecnológico español, y eso no me gusta un pelo.

Resulta que la gente con poder no tiene ni repajolera idea de tecnología, y cuando escuchan cuatro o cinco palabros desconocidos para ellos seguidos de términos como "2.0", "redes sociales" o "publicidad" empiezan a babear y a alabar a quien los ha proferido, independientemente de que, como es el caso, el susodicho sea simplemente un charlatán que probablemente no haya tocado un ordenador en su vida nada más que para escribir sus blogs, twitters y similares, y para hacer powerpoints.

De esa manera un perfecto iletrado tecnológico y con un desconocimiento de las leyes que asusta termina siendo por ejemplo perito en un juicio. Sinceramente: si yo algún día soy acusado o acusador en un juicio y aparece este tío para soltar sus charlas 2.0 sin criterio, me retiro, porque o eso o me tiraría el juicio entero descojonándome por no llorar.

En fin, que hay demasiada gente que sigue creyendo que este hombre sabe de lo que habla, lo cual solo sucede cuando habla de sus gadgets en cuanto a uso (nunca en cuanto a tecnología). Y alguien tiene que desenmascararle, porque si no este termina de Ministro o algo así, dios no lo quiera. En su blog no se puede, porque censura a cuantos opinan en su contra, o al menos conmigo lo hace de manera sistemática.

Esta es la razón de la existencia de este blog, que se limita a republicar sus entradas, cosa que entiendo que permite su licencia (la cual se enlaza, junto con la entrada original, en todas las entradas), para que todos podamos decir lo que nos apetezca sobre ellas, sin aguantar sus infantiles tijeretazos.

Lo único que no se permitirá en este blog son dos cosas: publicidad (spam) e insultos directos. Lo único que es necesario censurar para que las conversaciones sirvan para algo más que para vanagloriarse en los altares.

09 septiembre 2009

Reidentificación: identificando personas en bases de datos anónimas

0 comentarios:

Publicar un comentario

Últimos comentarios

Cancamusómetro

Enlaces

Sobre este blog

Archivo del blog

Contador de visitas