IA responsable #1 : comment définir une donnée personnelle ?

Cover image

Dans le cadre d’un traitement par une IA : un simple point de géolocalisation ou une transaction peut révéler l’identité d’un consommateur.

Ce n’est pas parce des données n’ont pas d’identifiants personnels explicites qu’elles ne contiennent pas de données personnelles. L’identification d’une personne physique est possible par corrélation entre plusieurs points d’informations (style d’écriture sur un texte suffisamment long, corrélation comportementale, géolocalisation et horodatage etc.). Comme un des objectifs et principes de fonctionnement des modèles d’IA est la recherche de corrélations entre plusieurs points, les risques de réidentification et de corrélation sont accrus. Il ne suffit donc pas de s’assurer que les identifiants explicites ont disparu ou ont été obfusqués pour s’assurer que les données ne contiennent pas d’informations personnelles.

Comment caractériser « La présence de données personnelles » ?

La définition d’une donnée personnelle ne se limite pas à des définitions formelles : noms, prénoms, adresses, visages, voix.

L’identification d’une personne physique peut être réalisée :
  • à partir d’une seule donnée (exemple : nom) ;
  • à partir du croisement d’un ensemble de données (exemple : un montant de transaction et son horodatage + un ou deux points de géolocalisation).
Cette notion selon laquelle la donnée personnelle (permettant d’identifier une personne physique) n’est pas limitée à ses identifiants explicites (nom, numéro de téléphone, etc.) est essentielle dans le monde de l’IA, comme le démontrent les cas suivants :
  • L’identification d’une personne physique peut être faite par simple association entre plusieurs points de géolocalisation
  • L’identification d’une personne physique peut être faite par simple horodatage de messages successifs (il suffit alors de posséder une base de logs de connexion sur un site n’ayant aucun rapport avec les messages, compte tenu des corrélations entre les heures de connexions à différents sites) ;
  • L’identification d’une personne physique peut être faite par une combinaison suffisante d’attributs en apparence bénins comme des produits consommés, qu’il est possible de reconstituer à partir de collectes indépendantes (autre vendeur, historique de recherche, etc.)
  • L’identification d’une personne physique peut être faite, avec un texte suffisamment long, par un simple algorithme de reconnaissance stylistique.

Donc s’assurer qu’il n’y a pas de nom, de numéro de téléphone, de visage ou d’enregistrement de voix dans des données d’entraînement (ou lors de l’utilisation du modèle) n’est pas suffisant pour se convaincre qu’une base de données ne contient pas de données personnelles.

Retrouvez la tribune d'Isabelle Bordy sur LinkedIn.