Embeddings zijn numerieke vectoren die de betekenis van data encoderen. Een stuk tekst — een woord, zin of heel document — wordt omgezet in een rij getallen (bijv. 1.536 dimensies) die de semantische positie in een betekenisruimte vertegenwoordigt. Teksten met vergelijkbare betekenis liggen dicht bij elkaar in deze ruimte; teksten met tegengestelde betekenis ver uit elkaar.
Een Intuïtief Voorbeeld
Stel u voor dat betekenis wordt weergegeven in een driedimensionale ruimte:
- "Hond" en "kat" liggen dicht bij elkaar (beide huisdieren)
- "Auto" en "fiets" liggen dicht bij elkaar (beide voertuigen)
- "Hond" en "auto" liggen ver uit elkaar
In werkelijkheid werken embedding-modellen met honderden tot duizenden dimensies — waardoor subtiele nuances in betekenis kunnen worden vastgelegd die in drie dimensies onmogelijk zijn.
Hoe Embeddings Worden Gemaakt
Een embedding-model — getraind op enorme hoeveelheden tekst — leert patronen van hoe woorden en zinnen in context voorkomen. Dit resulteert in een model dat elke invoertekst kan omzetten naar een vector die de semantische lading vastlegt.
"De factuur is te laat betaald" → [0.23, -0.87, 0.41, 0.12, ...]
"Betalingstermijn overschreden" → [0.21, -0.84, 0.39, 0.14, ...] ← vergelijkbaar!
"Het weer is mooi vandaag" → [-0.67, 0.23, -0.91, 0.55, ...] ← ver weg
Toepassingen
Semantisch zoeken Zoek in documenten op betekenis in plaats van exacte woorden. Een vraag over "betalingsproblemen" vindt ook documenten over "debiteuren", "openstaande facturen" en "wanbetalers".
RAG-systemen De bouwsteen van Retrieval-Augmented Generation: documenten worden als embeddings opgeslagen in een vector database. Bij een vraag wordt de queryvector vergeleken met alle opgeslagen vectoren om relevante passages op te halen.
Tekstclassificatie E-mails of klachten automatisch indelen in categorieën op basis van semantische gelijkenis met voorbeeldcategorieën.
Aanbevelingen Producten, artikelen of klantprofielen als embeddings representeren en op basis van gelijkenis matchmaking uitvoeren.
Duplicaatdetectie Documenten die inhoudelijk sterk op elkaar lijken identificeren, ook als ze anders zijn geformuleerd.
Embedding-modellen
| Model | Aanbieder | Dimensies | Geschikt voor |
|---|---|---|---|
| text-embedding-3-large | OpenAI | 3.072 | Hoge nauwkeurigheid, zakelijk gebruik |
| text-embedding-3-small | OpenAI | 1.536 | Kostenefficiënt voor grote volumes |
| embed-v3 | Cohere | 1.024 | Meertalig, incl. Nederlands |
| BGE-M3 | Beijing Academy of AI | 1.024 | Open-source, zelf te hosten |
| all-MiniLM-L6-v2 | Sentence Transformers | 384 | Lichtgewicht, lokale inzet |
Voor Nederlandse tekst verdienen meertalige modellen (Cohere embed-v3, BGE-M3) de voorkeur boven engelstalig geoptimaliseerde varianten.
Wat Embeddings Niet Kunnen
Embeddings leggen semantische gelijkenis vast, maar geen logisch redeneren, temporele volgorde of causale relaties. Twee zinnen die semantisch vergelijkbaar zijn kunnen tegengestelde conclusies bevatten — embeddings detecteren dit onderscheid niet automatisch. Voor taken die nuanced begrip vereisen, zijn embeddings een eerste filter, geen eindbeslissing.