Le Cnam mag' #8 - page 35

mag'
33
Grand angle
Le recueil et l’anonymisation des données personnelles constituent depuis l’apparition de l’informa-
tique des années 70 un sujet de préoccupation...
L
a notion de nom, de personnalisation en elle-
même, constitue une valeur extrêmement forte
pour l’individu : citons en vrac la célèbre malédic-
tion envers Olrik du Grand Prêtre égyptien «
que ton
nom ne soit plus
» du
Mystère de la Grande Pyramide
(Blake et Mortimer), les vols d’identité innombrables
dans les romans populaires (Fantômas, Arsène Lupin...)
et au cinéma. Citons par exemple les histoires de vols
d’empreintes digitales et d’iris des yeux de la personne
dont on veut dérober l’identité dans
Minority Report
de
Steven Spielberg. N’oublions jamais les hideuses expé-
riences des camps de la mort nazis du siècle dernier, où
les déportés n’étaient plus qu’un numéro tatoué sur leur
bras.
L’informatique c’est les
data
, l’infor-
matique c’est les fichiers, l’informa-
tique c’est tout de suite la relation aux
personnes, clients d’une entreprise le
plus souvent. Une personne dans un
fichier a une certaine valeur, liée aux
relations commerciales qu’une entre-
prise peut entretenir avec elle.
Dès les années 70, Tore Dalenius tra-
vaille sur les variables présentes dans
les fichiers informatiques (ex : nom,
adresse, âge), et propose en 1986 la
notion de quasi-identifiant, sorte de
clef regroupant dans un ordre précis plusieurs variables.
Il montre déjà que certaines combinaisons de variables
permettent de ré-identifier de manière unique («
single-
tons
») certains individus des fichiers. Une autre étape
est franchie avec Latanya Sweeney
1
qui dévoile la mala-
die du gouverneur du Massachusetts en croisant deux
fichiers disponibles aisément, l’un «anonymisé», l’autre
non : un quasi-identifiant constitué des variables (zip-
code, date de naissance, sexe) a suffi. C’est la curée :
Yves-Alexandre de Montjoye du
Massachasetts Institute
of Technology
(MIT) démontre en 2013, avec plusieurs
co-auteurs, que quatre positions spatiales et temporelles
d’un smartphone suffisent à identifier à 95 % près
1,5 millions d’Américains. Puis, en 2015, des résultats
similaires sont trouvés pour leurs tickets de caisse dans
les super-marchés, etc.
Parallèlement, des parades sont trouvées : les concepts
de floutage (on rajoute du bruit statistique aux variables,
on utilise des regroupements) permettent d’abaisser le
taux de ré-identification des quasi-identifiants. Une
métrologie des méthodes et des risques de ré-identifica-
tion est validée en 2010 dans un important colloque à
Washington sur les données de santé, qui précédera la
prise de conscience française et européenne au tournant
de l’année 2014, elle-même simultanée du
Privacy Report
demandé par le Président Obama.
Les procès en utilisation inappro-
priée des données privées des
fichiers, émanant souvent de
«
class-action suits
» de clients
excédés, mais aussi des institu-
tions européennes, se multiplient.
Ils constituent aujourd’hui proba-
blement la meilleure régulation –
financiarisation et judiciarisation
des offenses – de cet équilibre déli-
cat entre le respect de la vie privée
des individus et l’utilité écono-
mique et sociétale de l’utilisation
des données qui proviennent des fichiers d’aujourd’hui
que sont les
Big Data
.
En bon adepte du principe de Le Chatelier (1884 : la
Nature tend à s’opposer aux modifications d’un équilibre
qu’un système nouveau entend lui apporter), je pense
que le mythe du Big Brother du roman
1984
ne sera
jamais réalité. Comme le disait le mathématicien du film
Jurassic Park
 : « 
la Nature trouve toujours un
chemin
».
Big Data
et anonymisation
Par
Michel
Bera
Edgar P. Jacobs,
Le mystère de la
Grande Pyramide
,
Éditions Blake et
Mortimer.
1:
Professeure
et directrice
du laboratoire
Data Privacy
de l’Université
d’Harvard.
OK
1...,25,26,27,28,29,30,31,32,33,34 36,37,38,39,40,41,42,43,44,45,...52
Powered by FlippingBook