Embeddings zijn numerieke vectoren die de betekenis van data encoderen. Een stuk tekst — een woord, zin of heel document — wordt omgezet in een rij getallen (bijv. 1.536 dimensies) die de semantische positie in een betekenisruimte vertegenwoordigt. Teksten met vergelijkbare betekenis liggen dicht bij elkaar in deze ruimte; teksten met tegengestelde betekenis ver uit elkaar.

Een Intuïtief Voorbeeld

Stel u voor dat betekenis wordt weergegeven in een driedimensionale ruimte:

  • "Hond" en "kat" liggen dicht bij elkaar (beide huisdieren)
  • "Auto" en "fiets" liggen dicht bij elkaar (beide voertuigen)
  • "Hond" en "auto" liggen ver uit elkaar

In werkelijkheid werken embedding-modellen met honderden tot duizenden dimensies — waardoor subtiele nuances in betekenis kunnen worden vastgelegd die in drie dimensies onmogelijk zijn.

Hoe Embeddings Worden Gemaakt

Een embedding-model — getraind op enorme hoeveelheden tekst — leert patronen van hoe woorden en zinnen in context voorkomen. Dit resulteert in een model dat elke invoertekst kan omzetten naar een vector die de semantische lading vastlegt.

"De factuur is te laat betaald"  →  [0.23, -0.87, 0.41, 0.12, ...]
"Betalingstermijn overschreden"  →  [0.21, -0.84, 0.39, 0.14, ...]  ← vergelijkbaar!
"Het weer is mooi vandaag"       →  [-0.67, 0.23, -0.91, 0.55, ...]  ← ver weg

Toepassingen

Semantisch zoeken Zoek in documenten op betekenis in plaats van exacte woorden. Een vraag over "betalingsproblemen" vindt ook documenten over "debiteuren", "openstaande facturen" en "wanbetalers".

RAG-systemen De bouwsteen van Retrieval-Augmented Generation: documenten worden als embeddings opgeslagen in een vector database. Bij een vraag wordt de queryvector vergeleken met alle opgeslagen vectoren om relevante passages op te halen.

Tekstclassificatie E-mails of klachten automatisch indelen in categorieën op basis van semantische gelijkenis met voorbeeldcategorieën.

Aanbevelingen Producten, artikelen of klantprofielen als embeddings representeren en op basis van gelijkenis matchmaking uitvoeren.

Duplicaatdetectie Documenten die inhoudelijk sterk op elkaar lijken identificeren, ook als ze anders zijn geformuleerd.

Embedding-modellen

ModelAanbiederDimensiesGeschikt voor
text-embedding-3-largeOpenAI3.072Hoge nauwkeurigheid, zakelijk gebruik
text-embedding-3-smallOpenAI1.536Kostenefficiënt voor grote volumes
embed-v3Cohere1.024Meertalig, incl. Nederlands
BGE-M3Beijing Academy of AI1.024Open-source, zelf te hosten
all-MiniLM-L6-v2Sentence Transformers384Lichtgewicht, lokale inzet

Voor Nederlandse tekst verdienen meertalige modellen (Cohere embed-v3, BGE-M3) de voorkeur boven engelstalig geoptimaliseerde varianten.

Wat Embeddings Niet Kunnen

Embeddings leggen semantische gelijkenis vast, maar geen logisch redeneren, temporele volgorde of causale relaties. Twee zinnen die semantisch vergelijkbaar zijn kunnen tegengestelde conclusies bevatten — embeddings detecteren dit onderscheid niet automatisch. Voor taken die nuanced begrip vereisen, zijn embeddings een eerste filter, geen eindbeslissing.