Fine-tuning, RAG ou Prompt Engineering : Quand Choisir Quoi ?
Quand un client me demande “on pourrait fine-tuner le modèle sur nos données ?”, ma première réponse est toujours : “probablement pas nécessaire”. Voici la grille de décision que j’utilise.
Les Trois Approches
Prompt engineering : tout dans le contexte. Exemples, instructions, format attendu — le modèle généraliste fait le reste.
RAG : le modèle récupère les passages pertinents depuis une base documentaire avant de répondre.
Fine-tuning : on réentraîne le modèle sur des exemples annotés pour modifier son comportement de base.
La Matrice de Décision
| Critère | Prompt eng. | RAG | Fine-tuning |
|---|---|---|---|
| Coût initial | Très faible | Moyen | Élevé |
| Maintenance | Faible | Moyenne | Élevée |
| Données nécessaires | 0 exemple | Documents | 100–10k exemples |
| Réponses sur données fraîches | ✅ | ✅ | ❌ |
| Latence ajoutée | Nulle | +100–500ms | Nulle |
| Cohérence de style | Bonne | Bonne | Excellente |
Quand le Prompt Engineering Suffit
La grande majorité des cas : extraction structurée, classification, génération aux contraintes de format.
# 90% des cas se règlent avec un bon prompt
prompt = """Extrais les entités suivantes du texte en JSON :
- company_name (string)
- amount (number, en euros)
- date (YYYY-MM-DD)
Si une entité est absente, retourne null.
Texte : {text}"""
Si vous avez besoin de 10 exemples pour que le modèle comprenne le format, utilisez le few-shot — pas le fine-tuning.
Quand Utiliser le RAG
Dès que la réponse dépend de documents qui changent régulièrement ou qui dépassent la fenêtre de contexte :
- Base de connaissances produit (mise à jour mensuelle)
- Documentation technique interne
- Archives email / tickets support
Le RAG coûte moins cher à maintenir que le fine-tuning et reste à jour sans réentraînement.
Quand le Fine-tuning Est Justifié
Trois cas réels :
- Style très contraignant : le modèle doit écrire exactement comme votre marque, avec des tournures que le prompt ne capte pas suffisamment.
- Tâche répétitive à coût élevé : si vous faites 10M d’appels/mois à Sonnet pour une classification simple, fine-tuner Haiku peut diviser la facture par 5.
- Données propriétaires confidentielles : les exemples ne peuvent pas être envoyés à chaque appel pour des raisons légales.
Ce que Je Recommande
- Commencez par le prompt engineering. Testez sur 50 exemples réels.
- Si les résultats sont insuffisants à cause de lacunes documentaires → RAG.
- Si le RAG est trop lent / trop cher à l’échelle, ou si le style est critique → fine-tuning.
Vous atteindrez rarement l’étape 3.
Stéphanie Caumont
Product Owner IA · En savoir plus