Retency | Privacy Technologies

Dans le cadre de traitement de bases de données par une IA, annoter les données renforce les risques d’identification des consommateurs.

L’annotation accroît les risques de réidentification par corrélation, notamment lorsque des données d’une même personne sont annotées ensemble (messages successifs d’une même personne concaténés, points de géolocalisation d’une même personne, horodatage des connexions, etc.), indépendamment de l’absence d’identifiants explicites tels que nom, prénom, adresse.

Une attention particulière est à apporter à l'annotation reliant les données entre elles. Par exemple, on peut, pour un modèle textuel, annoter ensemble les messages d'une même personne, afin de rendre plus pertinent le modèle, créant ainsi un risque de réidentification par la présence de trop nombreux attributs personnels (différents produits consommés, problèmes successifs rencontrés etc.). Il en va de même pour l'annotation temporelle, qui peut servir à réidentifier des personnes avec des données de source complètement différente. En suivant l’exemple un exemple simple, il peut suffire d'avoir des logs de connexion sur un site sans aucun lien avec un service de messagerie pour réidentifier une personne seulement à partir des horodatages de plusieurs messages envoyés sur ce service de messagerie. Ces risques sont à prendre en compte dans le stockage des données d'entraînement, dans le droit de modification et d'effacement, et dans l'utilisation qui est faite du modèle (mémorisation).

Retrouvez la tribune d'Isabelle Bordy sur LinkedIn.

IA Responsable #3 Annoter les données renforce les risques d'identification des consommateurs