IA y RGPD: Gestionar Datos Sensibles en Producción

2 jul. 20266 min

La pregunta surge en todos los proyectos IA B2B: “¿Podemos enviar estos datos a Claude / GPT / Gemini?” La respuesta depende del tipo de datos, del proveedor y de los contratos vigentes. Así es como lo estructuro en la práctica.

El Problema Real del RGPD con los LLMs

No es “los LLMs memorizan todo” — los proveedores serios no re-entrenan con tus datos de producción. El problema real es la transferencia de datos fuera de la UE.

Anthropic, OpenAI y Google son empresas estadounidenses. Sus APIs procesan datos en servidores no-UE por defecto. Si tus datos contienen información personal de ciudadanos europeos, tienes un problema clásico de transferencia internacional bajo el RGPD.

4 Patrones según el Nivel de Sensibilidad

Nivel 1 — Datos Públicos o Anónimos

→ Cualquier API cloud, sin restricciones

Contenido de marketing, datos open source, consultas genéricas. Sin datos personales = sin restricción RGPD.

Nivel 2 — Datos Pseudonimizados

→ API cloud con precaución

Sustituir nombres/emails/IDs por marcadores antes de enviar al LLM, luego restaurar después.

import re

def anonymize(text: str) -> tuple[str, dict]:
    mapping = {}
    counter = [0]

    def replace_email(m):
        key = f"EMAIL_{counter[0]}"
        mapping[key] = m.group(0)
        counter[0] += 1
        return key

    cleaned = re.sub(r'\S+@\S+\.\S+', replace_email, text)
    return cleaned, mapping

def restore(text: str, mapping: dict) -> str:
    for key, value in mapping.items():
        text = text.replace(key, value)
    return text

Nivel 3 — Datos Personales No Sensibles

→ Proveedores con alojamiento UE o DPA firmado

Opciones viables en 2026:

Mistral AI (empresa francesa, alojamiento UE, DPA RGPD disponible)
Azure OpenAI con región europea (DPA de Microsoft)
Google Vertex AI con región europe-west

Verifica siempre que el DPA (Acuerdo de Tratamiento de Datos) esté en vigor antes de procesar.

Nivel 4 — Datos Muy Sensibles (salud, jurídico, RRHH)

→ On-premise o red privada únicamente

Ollama + Llama/Mistral en local, o despliegue en tu VPC sin ruta a internet.

EIPD: ¿Cuándo Es Obligatoria?

Una EIPD (Evaluación de Impacto en la Protección de Datos) es obligatoria si tu tratamiento IA:

Trata datos de salud, biométricos o penales
Realiza perfilado automatizado con efectos jurídicos
Trata datos personales a gran escala

En la práctica, recomiendo hacer una siempre que un LLM vea datos personales de usuarios finales — aunque no sea técnicamente obligatorio. Obliga a documentar las decisiones y validarlas con el DPO.

Lo Que Implemento por Defecto

En todos mis proyectos IA B2B:

Contrato de tratamiento firmado con cada proveedor LLM utilizado
Registro de tipos de datos que pasan por cada componente
Período de retención explícito en los prompts de sistema (para LLMs con memoria)
Cifrado en tránsito y en reposo para los vector stores
Revisión trimestral de la lista de subencargados IA

No es perfecto — el AI Act seguirá evolucionando — pero es defendible hoy.

Stéphanie Caumont

Product Owner de IA · Saber más