IA Responsable #2 Pseudonymiser une donnée revient à traiter une donnée en clair

Cover image

La pseudonymisation ne protège pas les données personnelles et crée des risques de fuites équivalents aux risques sur la donnée en clair. Dans le cadre d’un traitement par IA fondé sur l’intérêt légitime, la pseudonymisation ne peut donc pas être satisfaisante notamment quand la finalité n’a pas de lien direct avec le service fourni ou de nécessité raisonnablement compréhensible par les consommateurs.

« Mobiliser la base légale de l’intérêt légitime pour développer un système d’IA » ?

La base légale de l’intérêt légitime est une alternative à celle du consentement et de la réutilisation des données sur un consentement préexistant compatible. Ainsi, lorsqu'un traitement ne fait pas l'objet d'un consentement libre et éclairé, des mesures fortes de protection des données sont nécessaires. Elles garantissent la prévalence "[des] intérêts ou [des] libertés et droits fondamentaux de la personne concernée" (RGPD, article 6, 1.f).

En termes de protection des données, la pseudonymisation, comprise par la plupart des acteurs comme étant une simple obfuscation (déterministe) des identifiants personnels, ne présente aucune différence par rapport à l’utilisation d’identifiants en clair. En effet, il suffit de prendre des bases existantes (d’adresses e-mail par exemple), et de réeffectuer sur elles le processus de pseudonymisation pour retrouver à quel identifiant en clair les identifiants pseudonymisés correspondent. Ceci rend possible (dans la théorie comme dans la pratique, comme le démontrent les implémentations de type "clean room") la réidentification, la corrélation entre bases, et l'inférence comportementale sur une personne individuelle. Le re-ciblage sur la base d'identifiants publicitaires en est un exemple concret, dont la réalité et l'étendue sont difficilement compréhensibles pour les non-professionnels de la publicité et du marketing.

Au contraire de la pseudonymisation, les traitements d'anonymisation tels que ceux proposés par Retency, apportent les garanties nécessaires à l'utilisation de l'intérêt légitime.

Dans le cas particulier des IA, les risques de mémorisation et régurgitation sont bien connus, et posent la question des garanties apportées par le traitement des données personnelles. Les modèles fonctionnent en établissant des corrélations entre les données d'entraînement. Ces corrélations sont ensuite confrontées à une nouvelle donnée lors de l'utilisation du modèle. Ainsi, toute donnée pseudonmisée (par opposition à anonymisée, au sens du RGPD) utilisée dans l'entraînement d'un modèle risque par nature de retrouver une personne et de révéler ses informations ou son identité.

Ces risques, bien réels, n'existent pas lorsqu'on prend le soin de traiter correctement la donnée d'entraînement : anonymisation, utilisation rigoureuse de données synthétiques, etc.

Retrouvez la tribune d'Isabelle Bordy sur LinkedIn.