Wat is RAG?

Retrieval-Augmented Generation (RAG) is een techniek waarbij een LLM vóór het genereren van een antwoord eerst relevante informatie opzoekt in een externe databron — een kennisbank, documentcollectie of database. De opgehaalde informatie wordt meegegeven aan het model, dat het vervolgens synthetiseert tot een antwoord.

Het resultaat: de AI antwoordt op basis van uw specifieke bedrijfsdocumenten, niet op basis van zijn algemene trainingsdata. Dat maakt de output actueler, nauwkeuriger en traceerbaar.

Waarom is RAG Belangrijk?

Zonder RAG heeft een LLM twee fundamentele problemen voor zakelijke toepassingen:

Probleem 1 — Knowledge cutoff: LLM's zijn getraind tot een bepaalde datum. Uw meest recente producten, tarieven, beleidswijzigingen of klantinformatie kent het model niet.

Probleem 2 — Hallucinations: Wanneer een LLM geen betrouwbare informatie heeft over een onderwerp, vult het de leemte in met plausibele maar mogelijk onjuiste informatie — met groot zelfvertrouwen gepresenteerd.

RAG lost beide problemen op door het model te verankeren aan verifieerbare bronnen die u zelf controleert.

Hoe Werkt RAG Technisch?

Een RAG-systeem bestaat uit twee pijplijnen:

Indexeringspijplijn (eenmalig/periodiek)

  1. Documentinname: PDF's, Word-documenten, webpagina's, e-mails, CRM-notities worden ingeladen
  2. Chunking: Documenten worden opgesplitst in kleinere stukken (chunks) van 200-1000 tokens
  3. Embedding: Elk stuk wordt omgezet in een vector (een numerieke representatie van de betekenis) via een embedding-model
  4. Opslag: De vectoren worden opgeslagen in een vectordatabase (bijv. Pinecone, Weaviate, Chroma)

Query-pijplijn (per gebruikersvraag)

  1. Vraag wordt geëmbedded: De vraag van de gebruiker wordt ook omgezet in een vector
  2. Similarity search: De vectordatabase zoekt de chunks met de hoogste semantische gelijkenis aan de vraag
  3. Context samenstellen: De meest relevante chunks worden meegegeven aan het LLM als context
  4. Antwoord genereren: Het LLM formuleert een antwoord op basis van de vraag én de opgehaalde context

RAG in de Praktijk: Voorbeelden

Interne kennisbank voor medewerkers Een advocatenkantoor met 10.000 pagina's aan jurisprudentie, contracttemplates en interne richtlijnen. Een medewerker stelt een vraag aan de AI-assistent: "Welke clausule gebruiken we standaard bij non-disclosure agreements?" De RAG-agent zoekt in de documentenverzameling, vindt de relevante contractsectie, en presenteert het juiste antwoord met bronverwijzing.

AI-klantenservice met productkennis Een e-commercebedrijf koppelt zijn productcatalogus, FAQ-pagina's en retourbeleid aan een AI-chatbot via RAG. De bot beantwoordt klantenvragen op basis van actuele productinformatie — inclusief beschikbaarheid en specificaties die dagelijks worden bijgewerkt.

AI-receptionist met agendakennis Een tandartspraktijk geeft de AI-receptionist via RAG toegang tot de behandelprotocollen, tarieflijst en verzekeringsovereenkomsten. De agent kan specifieke vragen over behandelingen en vergoedingen beantwoorden zonder te gissen.

RAG vs. Fine-tuning: Wat is het Verschil?

Twee technieken worden vaak verward:

RAGFine-tuning
Wat het doetGeeft het model toegang tot externe kennis bij elke queryPast de gewichten van het model zelf aan op basis van trainingdata
Wanneer kennis beschikbaarDynamisch, bij elke query opgehaaldIngebakken in het model, statisch
Update-snelheidDirect — update de kennisbank, model hoeft niet opnieuw getraindLangzaam — vereist nieuw trainingsproces
KostenLaag (vectordatabase + embedding)Hoog (GPU-computingtijd)
TransparantieHoog — bronnen zijn traceerbaarLaag — kennis is impliciet in model
Geschikt voorBedrijfskennis, actuele info, privé-documentenSpecifieke schrijfstijl, domeinvocabulaire aanpassing

Voor de meeste zakelijke toepassingen is RAG de betere keuze: sneller te implementeren, goedkoper, en de bronnen zijn controleerbaar.

Kwaliteitsfactoren bij RAG-Implementatie

De kwaliteit van een RAG-systeem hangt af van meerdere factoren:

Chunkingstrategie: Te kleine chunks missen context; te grote chunks bevatten irrelevante informatie. De optimale grootte hangt af van het documenttype.

Embedding-model: Het embedding-model bepaalt hoe goed semantische gelijkenis wordt berekend. OpenAI text-embedding-3-large en Cohere Embed v3 zijn state-of-the-art.

Herranking: Na de initiële similarity search worden resultaten soms opnieuw gerangschikt op relevantie via een reranker-model (bijv. Cohere Rerank). Dit verbetert de precisie aanzienlijk.

Documentkwaliteit: RAG is zo goed als de documenten die u erin stopt. Verouderde, inconsistente of slordig gestructureerde documenten leiden tot onbetrouwbare antwoorden. "Garbage in, garbage out" geldt hier volledig. Zie Data Governance Beleid voor best practices.

Hybride zoeken: Combineer vectorzoeken (semantisch) met keyword-zoeken (exact) voor de beste resultaten — dit heet hybride retrieval.

Wat Kost een RAG-Implementatie?

Een eenvoudig RAG-systeem voor een MKB-bedrijf:

  • Vectordatabase (Pinecone, Chroma cloud): €0 – €70 per maand afhankelijk van volume
  • Embedding-API-kosten: €10 – €50 per maand (eenmalige indexering + querykosten)
  • LLM-API-kosten: €50 – €300 per maand afhankelijk van gebruik
  • Implementatie: €5.000 – €20.000 eenmalig voor setup, integratie en documentinname

Totale doorlopende kosten: €60 – €420 per maand — aanzienlijk goedkoper dan het inhuren van kenniswerkers voor dezelfde taak.

Voor stap-voor-stap implementatierichtlijnen, zie AI-Implementatie Stappenplan. Voor een vergelijking van kant-en-klare RAG-oplossingen versus maatwerk, zie SaaS vs. Maatwerk AI.