IA & RGPD : Comment Gérer les Données Sensibles en Production

2 juil. 20266 min

La question revient dans tous les projets IA B2B : “Peut-on envoyer ces données à Claude / GPT / Gemini ?” La réponse dépend du type de données, du fournisseur, et des contrats en place. Voici comment je structure ça en pratique.

Le Vrai Problème RGPD avec les LLMs

Ce n’est pas “les LLMs mémorisent tout” — les fournisseurs sérieux ne réentraînent pas sur vos données en production. Le vrai problème est le transfert de données hors UE.

Anthropic, OpenAI, Google sont des entreprises américaines. Leurs APIs traitent les données sur des serveurs hors UE par défaut. Si vos données contiennent des informations personnelles de citoyens européens, vous avez un problème RGPD classique de transfert international.

Les 4 Patterns selon le Niveau de Sensibilité

Niveau 1 — Données publiques ou anonymes

→ Toute API cloud, sans restriction

Contenu marketing, données open source, requêtes génériques. Pas de données personnelles = pas de contrainte RGPD.

Niveau 2 — Données pseudonymisées

→ API cloud avec précaution

Remplacer les noms/emails/SIRET par des identifiants avant d’envoyer au LLM, puis réinjecter après.

import re

def anonymize(text: str) -> tuple[str, dict]:
    mapping = {}
    counter = [0]

    def replace_email(m):
        key = f"EMAIL_{counter[0]}"
        mapping[key] = m.group(0)
        counter[0] += 1
        return key

    cleaned = re.sub(r'\S+@\S+\.\S+', replace_email, text)
    return cleaned, mapping

def restore(text: str, mapping: dict) -> str:
    for key, value in mapping.items():
        text = text.replace(key, value)
    return text

Niveau 3 — Données personnelles non sensibles

→ Fournisseurs avec hébergement UE ou DPA signé

Options viables en 2026 :

Mistral AI (français, hébergement UE, DPA RGPD disponible)
Azure OpenAI avec région Europe (DPA Microsoft)
Google Vertex AI avec région europe-west

Vérifiez toujours que le DPA (Data Processing Agreement) est en place avant de traiter.

Niveau 4 — Données très sensibles (santé, juridique, RH)

→ On-premise ou réseau privé uniquement

Ollama + Llama/Mistral en local, ou déploiement dans votre VPC sans route internet.

DPIA : Quand en Faire Une ?

Une DPIA (Data Protection Impact Assessment) est obligatoire si votre traitement IA :

Traite des données de santé, biométriques ou judiciaires
Effectue du profilage automatisé avec effets juridiques
Traite des données à grande échelle

En pratique, je recommande d’en faire une dès qu’un LLM voit des données personnelles de clients finaux, même si vous n’êtes pas techniquement obligé — ça force à documenter les choix et à les valider avec le DPO.

Ce que Je Mets en Place par Défaut

Sur tous mes projets IA B2B :

Contrat de traitement signé avec chaque fournisseur LLM utilisé
Log des types de données qui transitent par chaque composant
Durée de rétention explicite dans les prompts système (pour les LLMs avec mémoire)
Chiffrement en transit et au repos pour les vector stores
Revue trimestrielle de la liste des sous-traitants IA

Ce n’est pas parfait — la réglementation IA Act va encore bouger — mais c’est défendable aujourd’hui.

Stéphanie Caumont

Product Owner IA · En savoir plus