DAVID SITBON
Avocat
_edit.jpg)
COMMENT CONSTITUER POUR SON IA UNE BASE DE DONNÉES CONFORME AU RGPD ?
Lors de la phase de développement d’un modèle d’IA, la constitution de la base de données à des fins d’apprentissage est une étape cruciale.
Et dans la majorité des cas, elle implique la collecte ou la réutilisation de données personnelles.
Cette étape n’est pas sans règle : elle doit respecter les exigences du RGPD.
Un cadre commun à tous les cas
Quel que soit le mode de collecte ou de réutilisation, plusieurs principes s’appliquent, notamment :
→ Disposer d’une base légale (consentement, intérêt légitime, etc.)
→ Respecter le principe de minimisation (ne traiter que les données nécessaires à la finalité poursuivie)
→ Respecter le principe de transparence (information appropriée des personnes concernées)
5 cas sont à distinguer, chacun présentant des vérifications spécifiques selon la source des données :
1/ Scraping (collecte de données en ligne par moissonnage)
→ Définir en amont des critères précis de collecte
→ Exclure certaines catégories de données non nécessaires ou sensibles (ex : via des filtres)
→ Supprimer immédiatement les données non pertinentes collectées malgré les critères mis en place
→ Exclure les sites qui s’opposent au scraping (CGU, CAPTCHA, robots.txt)
→ Limiter la collecte aux données librement accessibles (sans création de compte) et dont le caractère public est connu des personnes
2/ Réutilisation de bases de données publiquement accessibles (open source)
→ Vérifier l’absence d’illicéité manifeste (ex : base issue d’une fuite de données)
→ Vérifier notamment :
- la source de la base de données
- qu’elle ne résulte pas d’un crime ou d’un délit
- l’absence de doute flagrant sur sa licéité
- l’absence de données sensibles. A défaut, il convient réaliser des vérifications complémentaires (notamment sur le recueil d'un consentement explicite préalable)
3/ Réutilisation de données acquises auprès de tiers (data brokers, etc.)
→ Vérifier que la base n’est pas manifestement illicite
→ Être vigilant en cas de doute sur la source ou en présence de données sensibles
→ La conclusion d’un accord avec le fournisseur est recommandée
4/ Réutilisation de données initialement collectées par vous-même pour une autre finalité
→ Réaliser un "test de compatibilité" afin de vérifier que le nouvel usage est compatible avec la finalité initiale
5/ Collecte directe auprès des personnes concernées
À retenir : la constitution d’une base de données d’apprentissage n’est pas qu’une étape technique, c'est un volet essentiel de la conformité juridique du système d'IA.
Surtout, il ne suffit pas de respecter le RGPD : il faut être en mesure de le démontrer par une documentation précise.