AI Glossary/RAG (Retrieval-Augmented Generation)

RAG (Retrieval-Augmented Generation)

RAG is a technique that connects a language model to an external knowledge base so it can answer questions based on your specific documents.

Full definition

Le RAG (Retrieval-Augmented Generation) est une architecture qui résout l'une des principales limitations des LLM : leur méconnaissance de vos données propriétaires. Au lieu d'entraîner un nouveau modèle, on lui donne accès à une base de connaissances qu'il peut consulter au moment de générer une réponse.

Techniquement, le RAG fonctionne en trois étapes : (1) les documents sont découpés en fragments et transformés en vecteurs numériques (embeddings) stockés dans une base vectorielle, (2) quand une question arrive, les fragments les plus pertinents sont récupérés, (3) le LLM génère une réponse en s'appuyant sur ces fragments avec citation des sources.

Pour les entreprises, le RAG est souvent la solution optimale pour créer un chatbot ou un assistant IA qui connaît votre documentation interne (manuels, procédures, historique client, base légale) sans avoir à entraîner un nouveau modèle coûteux.

Concrete examples for SMEs

Juridique

Un RAG indexe toute la jurisprudence pertinente et les contrats d'un cabinet. L'avocat peut poser des questions en langage naturel et obtenir des réponses sourcées en quelques secondes.

Santé

Un RAG indexe les guidelines HAS, le Vidal et les protocoles internes. Le médecin consulte l'assistant IA pour vérifier les contre-indications ou les dosages recommandés.

BTP

Un RAG indexe tous les DOE, CCTP et comptes-rendus de chantier. Le chef de chantier retrouve instantanément toute information technique sans chercher dans des centaines de fichiers.

Assurance

Un RAG indexe les conditions générales, les circulaires et la jurisprudence. Les gestionnaires de sinistres posent leurs questions en langage naturel et obtiennent des réponses sourcées en quelques secondes, réduisant le temps de traitement de 40%.

Formation

Un RAG connecté aux supports de cours permet aux stagiaires de poser des questions après la session et d'obtenir des réponses précises basées sur le contenu pédagogique, avec renvoi vers les chapitres sources.

RAG vs Fine-tuning vs Prompt avec contexte

Critère	RAG	Fine-tuning	Prompt avec contexte
Mise à jour des données	Instantanée (ajout documents)	Réentraînement nécessaire	Manuelle (copier-coller)
Volume de données	Illimité (base vectorielle)	Limité (coût entraînement)	Très limité (fenêtre contexte)
Sources citées	Oui (traçabilité)	Non	Non
Coût initial	Moyen (5-30K€)	Élevé (5-50K€+)	Quasi nul
Cas d'usage idéal	FAQ, documentation, support	Style, vocabulaire spécialisé	Prototypage, tests rapides

Everything you need to know about RAG (Retrieval-Augmented Generation)

What is the difference between RAG and fine-tuning?

RAG connects an existing LLM to an external document base without modifying it. Fine-tuning modifies the model itself to learn your data. RAG is faster, less costly and easier to update.

What volume of documents can a RAG system handle?

Millions of documents. Vector storage (Pinecone, Weaviate, pgvector) is designed to index and search across immense corpora with millisecond response times.

Does RAG cite its sources?

Yes, that's one of its key advantages. Each response can include the documentary sources used, allowing users to verify the original information.

How much does a RAG system cost?

Initial deployment ranges from €5,000 to €30,000 depending on volume and complexity. Monthly operating costs are generally low (API costs + cloud infrastructure).

Does RAG work with multilingual documents?

Yes, multilingual embedding models (like multilingual-e5) allow indexing documents in French, English, Arabic and other languages in a single vector database. A user can ask a question in French and get answers from documents in English.

What is the difference between naive RAG and advanced RAG?

Naive RAG simply chunks documents and searches by similarity. Advanced RAG adds result re-ranking, query reformulation, metadata filtering and parent/child chunk management. These optimizations improve response relevance by 20 to 40%.

Want to integrate AI into your business?

We start from your concrete situation: your tools, your processes, your data. No jargon — just results.

Book a free audit See our case studies

More glossary terms

Agent IA Chatbot IA LLM (Large Language Model)Automatisation IA Prompt Engineering Fine-tuning NLP (Natural Language Processing)IA Générative Assistant Virtuel IA IA Conversationnelle RPA vs IA Workflow IA No-code IA Embedding

Full definition

Concrete examples for SMEs

Juridique

Un RAG indexe toute la jurisprudence pertinente et les contrats d'un cabinet. L'avocat peut poser des questions en langage naturel et obtenir des réponses sourcées en quelques secondes.

Santé

Un RAG indexe les guidelines HAS, le Vidal et les protocoles internes. Le médecin consulte l'assistant IA pour vérifier les contre-indications ou les dosages recommandés.

BTP

Un RAG indexe tous les DOE, CCTP et comptes-rendus de chantier. Le chef de chantier retrouve instantanément toute information technique sans chercher dans des centaines de fichiers.

Assurance

Formation

RAG vs Fine-tuning vs Prompt avec contexte

Critère	RAG	Fine-tuning	Prompt avec contexte
Mise à jour des données	Instantanée (ajout documents)	Réentraînement nécessaire	Manuelle (copier-coller)
Volume de données	Illimité (base vectorielle)	Limité (coût entraînement)	Très limité (fenêtre contexte)
Sources citées	Oui (traçabilité)	Non	Non
Coût initial	Moyen (5-30K€)	Élevé (5-50K€+)	Quasi nul
Cas d'usage idéal	FAQ, documentation, support	Style, vocabulaire spécialisé	Prototypage, tests rapides

Everything you need to know about RAG (Retrieval-Augmented Generation)

What is the difference between RAG and fine-tuning?

RAG connects an existing LLM to an external document base without modifying it. Fine-tuning modifies the model itself to learn your data. RAG is faster, less costly and easier to update.

What volume of documents can a RAG system handle?

Millions of documents. Vector storage (Pinecone, Weaviate, pgvector) is designed to index and search across immense corpora with millisecond response times.

Does RAG cite its sources?

Yes, that's one of its key advantages. Each response can include the documentary sources used, allowing users to verify the original information.

How much does a RAG system cost?

Initial deployment ranges from €5,000 to €30,000 depending on volume and complexity. Monthly operating costs are generally low (API costs + cloud infrastructure).

RAG (Retrieval-Augmented Generation)

Full definition

Concrete examples for SMEs

RAG vs Fine-tuning vs Prompt avec contexte

Related solutions

Base de connaissances RAG

Chatbots IA

Related terms

Everything you need to know about RAG (Retrieval-Augmented Generation)

What is the difference between RAG and fine-tuning?

What volume of documents can a RAG system handle?

Does RAG cite its sources?

How much does a RAG system cost?

Does RAG work with multilingual documents?

What is the difference between naive RAG and advanced RAG?

Want to integrate AI into your business?

RAG (Retrieval-Augmented Generation)

Full definition

Concrete examples for SMEs

RAG vs Fine-tuning vs Prompt avec contexte

Related solutions

Base de connaissances RAG

Chatbots IA

Related terms

Everything you need to know about RAG (Retrieval-Augmented Generation)

What is the difference between RAG and fine-tuning?

What volume of documents can a RAG system handle?

Does RAG cite its sources?

How much does a RAG system cost?

Does RAG work with multilingual documents?

What is the difference between naive RAG and advanced RAG?

Want to integrate AI into your business?