Wat is Retrieval-Augmented Generation (RAG)? | AI Woordenboek

Wat is RAG?

Retrieval-Augmented Generation (RAG) is een techniek waarbij een LLM vóór het genereren van een antwoord eerst relevante informatie opzoekt in een externe databron — een kennisbank, documentcollectie of database. De opgehaalde informatie wordt meegegeven aan het model, dat het vervolgens synthetiseert tot een antwoord.

Het resultaat: de AI antwoordt op basis van uw specifieke bedrijfsdocumenten, niet op basis van zijn algemene trainingsdata. Dat maakt de output actueler, nauwkeuriger en traceerbaar.

Waarom is RAG Belangrijk?

Zonder RAG heeft een LLM twee fundamentele problemen voor zakelijke toepassingen:

Probleem 1 — Knowledge cutoff: LLM's zijn getraind tot een bepaalde datum. Uw meest recente producten, tarieven, beleidswijzigingen of klantinformatie kent het model niet.

Probleem 2 — Hallucinations: Wanneer een LLM geen betrouwbare informatie heeft over een onderwerp, vult het de leemte in met plausibele maar mogelijk onjuiste informatie — met groot zelfvertrouwen gepresenteerd.

RAG lost beide problemen op door het model te verankeren aan verifieerbare bronnen die u zelf controleert.

Hoe Werkt RAG Technisch?

Een RAG-systeem bestaat uit twee pijplijnen:

Indexeringspijplijn (eenmalig/periodiek)

Documentinname: PDF's, Word-documenten, webpagina's, e-mails, CRM-notities worden ingeladen
Chunking: Documenten worden opgesplitst in kleinere stukken (chunks) van 200-1000 tokens
Embedding: Elk stuk wordt omgezet in een vector (een numerieke representatie van de betekenis) via een embedding-model
Opslag: De vectoren worden opgeslagen in een vectordatabase (bijv. Pinecone, Weaviate, Chroma)

Query-pijplijn (per gebruikersvraag)

Vraag wordt geëmbedded: De vraag van de gebruiker wordt ook omgezet in een vector
Similarity search: De vectordatabase zoekt de chunks met de hoogste semantische gelijkenis aan de vraag
Context samenstellen: De meest relevante chunks worden meegegeven aan het LLM als context
Antwoord genereren: Het LLM formuleert een antwoord op basis van de vraag én de opgehaalde context

RAG in de Praktijk: Voorbeelden

Interne kennisbank voor medewerkers Een advocatenkantoor met 10.000 pagina's aan jurisprudentie, contracttemplates en interne richtlijnen. Een medewerker stelt een vraag aan de AI-assistent: "Welke clausule gebruiken we standaard bij non-disclosure agreements?" De RAG-agent zoekt in de documentenverzameling, vindt de relevante contractsectie, en presenteert het juiste antwoord met bronverwijzing.

AI-klantenservice met productkennis Een e-commercebedrijf koppelt zijn productcatalogus, FAQ-pagina's en retourbeleid aan een AI-chatbot via RAG. De bot beantwoordt klantenvragen op basis van actuele productinformatie — inclusief beschikbaarheid en specificaties die dagelijks worden bijgewerkt.

AI-receptionist met agendakennis Een tandartspraktijk geeft de AI-receptionist via RAG toegang tot de behandelprotocollen, tarieflijst en verzekeringsovereenkomsten. De agent kan specifieke vragen over behandelingen en vergoedingen beantwoorden zonder te gissen.

RAG vs. Fine-tuning: Wat is het Verschil?

Twee technieken worden vaak verward:

	RAG	Fine-tuning
Wat het doet	Geeft het model toegang tot externe kennis bij elke query	Past de gewichten van het model zelf aan op basis van trainingdata
Wanneer kennis beschikbaar	Dynamisch, bij elke query opgehaald	Ingebakken in het model, statisch
Update-snelheid	Direct — update de kennisbank, model hoeft niet opnieuw getraind	Langzaam — vereist nieuw trainingsproces
Kosten	Laag (vectordatabase + embedding)	Hoog (GPU-computingtijd)
Transparantie	Hoog — bronnen zijn traceerbaar	Laag — kennis is impliciet in model
Geschikt voor	Bedrijfskennis, actuele info, privé-documenten	Specifieke schrijfstijl, domeinvocabulaire aanpassing

Voor de meeste zakelijke toepassingen is RAG de betere keuze: sneller te implementeren, goedkoper, en de bronnen zijn controleerbaar.

Kwaliteitsfactoren bij RAG-Implementatie

De kwaliteit van een RAG-systeem hangt af van meerdere factoren:

Chunkingstrategie: Te kleine chunks missen context; te grote chunks bevatten irrelevante informatie. De optimale grootte hangt af van het documenttype.

Embedding-model: Het embedding-model bepaalt hoe goed semantische gelijkenis wordt berekend. OpenAI text-embedding-3-large en Cohere Embed v3 zijn state-of-the-art.

Herranking: Na de initiële similarity search worden resultaten soms opnieuw gerangschikt op relevantie via een reranker-model (bijv. Cohere Rerank). Dit verbetert de precisie aanzienlijk.

Documentkwaliteit: RAG is zo goed als de documenten die u erin stopt. Verouderde, inconsistente of slordig gestructureerde documenten leiden tot onbetrouwbare antwoorden. "Garbage in, garbage out" geldt hier volledig. Zie Data Governance Beleid voor best practices.

Hybride zoeken: Combineer vectorzoeken (semantisch) met keyword-zoeken (exact) voor de beste resultaten — dit heet hybride retrieval.

Wat Kost een RAG-Implementatie?

Een eenvoudig RAG-systeem voor een MKB-bedrijf:

Vectordatabase (Pinecone, Chroma cloud): €0 – €70 per maand afhankelijk van volume
Embedding-API-kosten: €10 – €50 per maand (eenmalige indexering + querykosten)
LLM-API-kosten: €50 – €300 per maand afhankelijk van gebruik
Implementatie: €5.000 – €20.000 eenmalig voor setup, integratie en documentinname

Totale doorlopende kosten: €60 – €420 per maand — aanzienlijk goedkoper dan het inhuren van kenniswerkers voor dezelfde taak.

Voor stap-voor-stap implementatierichtlijnen, zie AI-Implementatie Stappenplan. Voor een vergelijking van kant-en-klare RAG-oplossingen versus maatwerk, zie SaaS vs. Maatwerk AI.

Wat is een Retrieval-Augmented Generation (RAG)?

Wat is RAG?

Waarom is RAG Belangrijk?

Hoe Werkt RAG Technisch?

Indexeringspijplijn (eenmalig/periodiek)

Query-pijplijn (per gebruikersvraag)

RAG in de Praktijk: Voorbeelden

RAG vs. Fine-tuning: Wat is het Verschil?

Kwaliteitsfactoren bij RAG-Implementatie

Wat Kost een RAG-Implementatie?

Gerelateerde termen

Large Language Model (LLM)

Embeddings

Vector Database