32
mag'
La donnée devient le «nouvel or» de nos sociétés modernes, une chance sans précédent pour éle-
ver significativement notre connaissance collective dans les domaines de la santé, de l’écologie ou
encore de la cybersécurité à l’ère du
Big Data
. Cette richesse collective s’obtient par le croisement
d’énormes banques de données (BD) qui peuvent révéler lors de ces corrélations des données à
caractère personnel (DCP). Se pose alors la question de prévenir le risque de leur mésusage.
L
’obtention indue de DCP constitue au regard de la
loi française une violation des droits fondamen-
taux. Ainsi, l’article 4 du règlement européen a
défini en avril 2016 la DCP : «
toute information se rap-
portant à une personne physique identifiable celle-ci
pouvant l’être directement ou indirectement, notamment
par référence à un ou plusieurs identifiants (nom,
numéro d’identification, localisation) ou éléments
d’identification spécifiques à une identité physique, phy-
siologique, génétique, psychique
». Le stockage d’une
DCP a la structure suivante :
{N°(1),Nom(Dupont), CP (71100), Naissance (30/03/1950),
Pathologie (insuffisance rénale)}
{N°(2),Nom(Amery), CP (69740), Naissance (23/12/2006),
Pathologie (pneumopathie)}
{N°(3), Nom (…),CP (…), Naissance (…), Pathologie (….)}
1
Dans cet exemple, l’obtention par un organisme ban-
caire de la DCP « nom » et « pathologie » pourrait com-
promettre l’accès à un prêt. Pour éviter cela, la loi
encadre la manipulation et le stockage de données mas-
sives en recommandant avant traitement la pseudony-
misation des DCP. La pseudonymisation consiste à
remplacer les attributs directement identifiants, comme
le nom de la personne, par un pseudonyme tout en gar-
dant l’information utile :
{N°(1), Pseudonyme (X), CP (71100), Naissance (30/03/1950),
Pathologie (insuffisance rénale)}
{N°(2), Pseudonyme (Y), CP (69740), Naissance (23/12/2006),
Pathologie (pneumopathie)}
{N°(3),Pseudonyme (…), CP (…), Naissance (…), Pathologie (….)}
2
Or le risque d’une ré-identification est particulièrement
présent à l’ère du
Big Data
et de l’
Open Data
, ces deux
phénomènes facilitent le croisement avec d’autres BD,
moins maîtrisées. Dans cet exemple, le patient
«Dupont » est ré-identifié par le croisement des enre-
gistrements {1} de la BD «B» et {4} de la BD «C» qui
n’est qu’une simple banque de données de patients d’une
application de rendez-vous médicaux en ligne.
L’anonymisation est la meilleure technique pour garantir
la vie privée tout en préservant l’utilité des DCP. Dans
l’exemple de la BD «C» anonymisée, les DCP des per-
sonnes 1 et 4 correspondent. Ainsi, l’anonymisation dimi-
nue le risque de ré-identification mais ne l’exclut pas.
La cybersécurité une aide ou un risque pour
l’anonymat?
La cybersécurité est efficace dans l’analyse de traces
informatiques laissées par les usagers, auteurs d’activi-
tés normales, malveillantes ou erronées. Lors d’inci-
dents de sécurité, les opérateurs investiguent ces traces
afin de leur attribuer une responsabilité civile ou pénale.
Ces traces, qui proviennent des journaux d’audit des
systèmes de surveillance, sont des données dites de
connexion (DDC) et ne sont pas considérées comme des
DCP. À cet égard, plusieurs aspects sont à considérer.
La loi encadre la conservation et la consultation des
DDC en réservant aux opérateurs télécom l’usage de ces
données dans certaines conditions comme la sécurité de
leurs réseaux ou encore leur besoin de facturation.
Certains d’entre eux en font un usage commercial
cependant. Ainsi l’opérateur AT&T a-t-il développé son
système
Time Warner
afin de croiser les métadonnées
de connexion de ses utilisateurs : messages, heure
d’émission ou destinataire. Ces DDC sont aussi pré-
cieuses pour les forces de l’ordre américaines afin d’ob-
tenir des informations sur la géolocalisation de
suspects.
L’exploitation de ces traces à l’aide des outils de
Big Data
permet d’élever la connaissance sur les comportements
malveillants en vue de les anticiper, un atout pour la lutte
contre le terrorisme. En revanche, dans le cas d’usage
de techniques d’anonymisation, les experts de sécurité
seront dans l’impossibilité d’exploiter ces traces numé-
riques et par là-même, d’établir une responsabilité ou de
capitaliser sur ces données.
Big Data
et cybersécurité :
quelles armes face à cette ruée
vers ce nouvel or numérique?
Site Web des professionnels de santé
N° Nom S Code Postal
Date naissance
1 Marron H 71100
30/03/1950
2 Amery H 60240
03/02/1975
3 Durant H 68120
23/12/2006
4 Dupont H 71100
12/12/1950
5 ….
…
…
Tab 3 – IllustraNon de la BD « C »
12 12 1950
Prénom
Docteur H – Néphrologue – Chalons / S
homme
femme
Date de Naissance
Raymond
Dupont
N° Nom S Code Postal
Date naissance
1 W H Saone et Loire
[65-70]
2 X H Oise
[40-45]
3 Y H Bas-Rhin
[10-15]
4 Z H Saone et Loire
[65-70]
5 ….
…
…
Tab 4 – IllustraNon de la BD « C » anonymisée
Par
Véronique
Legrand
1:
Banque de
données «A».
2:
Banque de
données «B».
OK