Le RAG est une technique qui connecte un modèle de langage à une base documentaire externe, lui permettant de répondre en s'appuyant sur vos propres données et documents.
Le RAG (Retrieval-Augmented Generation) est une architecture qui résout l'une des principales limitations des LLM : leur méconnaissance de vos données propriétaires. Au lieu d'entraîner un nouveau modèle, on lui donne accès à une base de connaissances qu'il peut consulter au moment de générer une réponse.
Techniquement, le RAG fonctionne en trois étapes : (1) les documents sont découpés en fragments et transformés en vecteurs numériques (embeddings) stockés dans une base vectorielle, (2) quand une question arrive, les fragments les plus pertinents sont récupérés, (3) le LLM génère une réponse en s'appuyant sur ces fragments avec citation des sources.
Pour les entreprises, le RAG est souvent la solution optimale pour créer un chatbot ou un assistant IA qui connaît votre documentation interne (manuels, procédures, historique client, base légale) sans avoir à entraîner un nouveau modèle coûteux.
Un RAG indexe toute la jurisprudence pertinente et les contrats d'un cabinet. L'avocat peut poser des questions en langage naturel et obtenir des réponses sourcées en quelques secondes.
Un RAG indexe les guidelines HAS, le Vidal et les protocoles internes. Le médecin consulte l'assistant IA pour vérifier les contre-indications ou les dosages recommandés.
Un RAG indexe tous les DOE, CCTP et comptes-rendus de chantier. Le chef de chantier retrouve instantanément toute information technique sans chercher dans des centaines de fichiers.
Un RAG indexe les conditions générales, les circulaires et la jurisprudence. Les gestionnaires de sinistres posent leurs questions en langage naturel et obtiennent des réponses sourcées en quelques secondes, réduisant le temps de traitement de 40%.
Un RAG connecté aux supports de cours permet aux stagiaires de poser des questions après la session et d'obtenir des réponses précises basées sur le contenu pédagogique, avec renvoi vers les chapitres sources.
| Critère | RAG | Fine-tuning | Prompt avec contexte |
|---|---|---|---|
| Mise à jour des données | Instantanée (ajout documents) | Réentraînement nécessaire | Manuelle (copier-coller) |
| Volume de données | Illimité (base vectorielle) | Limité (coût entraînement) | Très limité (fenêtre contexte) |
| Sources citées | Oui (traçabilité) | Non | Non |
| Coût initial | Moyen (5-30K€) | Élevé (5-50K€+) | Quasi nul |
| Cas d'usage idéal | FAQ, documentation, support | Style, vocabulaire spécialisé | Prototypage, tests rapides |
Le RAG connecte un LLM existant à une base de documents externe sans le modifier. Le fine-tuning modifie le modèle lui-même pour qu'il apprenne vos données. Le RAG est plus rapide, moins coûteux et plus facile à mettre à jour. Le fine-tuning est préférable pour apprendre un style ou un vocabulaire très spécifique.
Des millions de documents. Le stockage vectoriel (Pinecone, Weaviate, pgvector) est conçu pour indexer et rechercher dans d'immenses corpus avec des temps de réponse en millisecondes.
Oui, c'est l'un de ses avantages clés. Chaque réponse peut inclure les sources documentaires utilisées, permettant à l'utilisateur de vérifier l'information originale.
Le déploiement initial varie de 5 000€ à 30 000€ selon la volumétrie et la complexité. Les coûts de fonctionnement mensuel sont généralement faibles (coûts API + infrastructure cloud).
Oui, les modèles d'embedding multilingues (comme multilingual-e5) permettent d'indexer des documents en français, anglais, arabe et autres langues dans une même base vectorielle. Un utilisateur peut poser une question en français et obtenir des réponses issues de documents en anglais.
Le RAG naïf découpe simplement les documents et recherche par similarité. Le RAG avancé ajoute un re-ranking des résultats, une reformulation de la requête, un filtrage par métadonnées et une gestion des chunks parents/enfants. Ces optimisations améliorent la pertinence des réponses de 20 à 40%.
On part de votre situation concrète : vos outils, vos processus, vos données. Pas de jargon — des résultats.