Wat is Tokens? | AI Woordenboek

Wat zijn Tokens?

Tokens zijn de basiseenheden waarmee een LLM tekst verwerkt. Een taalmodel leest geen letters of woorden direct — het converteert eerst de input naar tokens, verwerkt die tokens, en genereert vervolgens nieuwe tokens als output.

Een token is doorgaans een woord, een woorddeel of een leesteken. De exacte opdeling verschilt per tokenizer (het systeem dat tokens definieert), maar vuistregels voor het Engels:

1 token ≈ ¾ woord
100 tokens ≈ 75 woorden
1.000 tokens ≈ 750 woorden ≈ 1,5 A4-pagina

Voor het Nederlands geldt een iets hogere tokenratio: Nederlandse woorden zijn gemiddeld langer, waardoor dezelfde Nederlandse zin meer tokens verbruikt dan de Engelse equivalent — typisch 20-30% meer.

Waarom zijn Tokens Relevant voor Uw Bedrijf?

Tokens bepalen drie cruciale aspecten van LLM-gebruik:

1. Kosten AI-providers rekenen per token — zowel voor invoer (input tokens) als uitvoer (output tokens). Output is doorgaans 3-5× duurder per token dan input, omdat het genereren van tekst meer computervermogen vereist dan het lezen ervan.

2. Contextlimieten Elk LLM heeft een maximaal context window gemeten in tokens. Alles buiten dat venster ziet het model niet. Als u een lang document verwerkt én een uitgebreide systeemprompte heeft én een lange gesprekshistorie — moet dat allemaal in het context window passen.

3. Latency Hoe meer output-tokens het model genereert, hoe langer het duurt. Voor real-time toepassingen (chatbots, telefonische AI) is token-efficiëntie direct van invloed op de gebruikerservaring.

Tarieven van de Belangrijkste LLM-Providers (2025)

Tarieven worden uitgedrukt per miljoen tokens (MTok):

Model	Input (per MTok)	Output (per MTok)	Context window
GPT-4o (OpenAI)	$2,50	$10,00	128.000 tokens
GPT-4o mini	$0,15	$0,60	128.000 tokens
Claude 3.5 Sonnet (Anthropic)	$3,00	$15,00	200.000 tokens
Claude 3 Haiku	$0,25	$1,25	200.000 tokens
Gemini 1.5 Pro (Google)	$1,25	$5,00	2.000.000 tokens
Gemini 1.5 Flash	$0,075	$0,30	1.000.000 tokens
Llama 3.1 70B (via Groq)	$0,59	$0,79	128.000 tokens

Tarieven zijn indicatief en worden regelmatig aangepast door providers.

Praktische Kostenberekening

Voorbeeld: AI-mailrespons voor 100 e-mails per dag

Aannames:

Gemiddelde inkomende e-mail: 150 woorden → ~200 tokens
Systeemprompte (instructies voor de AI): 500 tokens
Gegenereerd antwoord: 200 woorden → ~270 tokens

Totaal per e-mail: 200 + 500 = 700 input-tokens + 270 output-tokens

Dagelijkse API-kosten met GPT-4o:

Input: 100 × 700 tokens = 70.000 tokens = 0,07 MTok × $2,50 = $0,18
Output: 100 × 270 tokens = 27.000 tokens = 0,027 MTok × $10,00 = $0,27
Totaal per dag: ~$0,45 | Per maand: ~$13,50

Met GPT-4o mini (voldoende voor standaard mailresponse):

Totaal per dag: ~$0,02 | Per maand: ~$0,60

Conclusie: voor de meeste standaard zakelijke toepassingen zijn de directe API-kosten verwaarloosbaar. De investering zit in de implementatie, niet in het API-verbruik.

Context Window: Wat Past Er In?

Moderne LLM's hebben grote context windows. Ter referentie wat er in past bij de gangbare modellen:

Context window	Wat past er in
8.000 tokens	6.000 woorden — een lang rapport
32.000 tokens	24.000 woorden — een businessplan
128.000 tokens	96.000 woorden — een gemiddeld boek
200.000 tokens	150.000 woorden — meerdere boeken of een groot contractarchief
2.000.000 tokens	1.500.000 woorden — een volledige wetgevingsdatabank

Praktische implicatie: met Claude of Gemini kunt u een volledige contracthistorie van een klant meegeven en de AI vragen naar patronen — alles past in één aanvraag.

Tokenoptimalisatie: Kosten Beheersen

Bij hoog-volume toepassingen loont het om actief op tokens te optimaliseren:

Comprimeer systeemprompts: Elke aanvraag begint met de systeemprompte (de instructies). Een kortere maar even effectieve prompte spaart tokens bij elke aanvraag.

Kies het juiste model: Goedkopere modellen (GPT-4o mini, Claude 3 Haiku) zijn voor 70-80% van de zakelijke taken adequaat. Gebruik dure modellen alleen voor complexe redeneerketens.

Beperk gesprekshistorie: In chatbots groeit de gesprekshistorie met elke beurt. Sla alleen de laatste N berichten op in de context in plaats van de volledige geschiedenis.

Caching: OpenAI en Anthropic bieden prompt caching aan — statische systeemprompts die herhaald worden, worden goedkoper verwerkt bij herhaling. Bij grote prompts levert dit 50-90% kostenreductie op op de input-tokens.

Samenvatting van lange threads: In plaats van een volledige conversatiehistorie mee te sturen, laat de AI periodiek een samenvatting maken die de context comprimeert.

Tokens en de EU AI Act

De EU AI Act vereist transparantie over geautomatiseerde besluitvorming. Voor AI-toepassingen waarbij de output rechtsgevolgen heeft, moet u kunnen uitleggen hoe de AI tot zijn conclusie is gekomen. Token-voor-token generatie maakt dit inherent lastig — een LLM geeft geen "beslissingspad" terug. Mitigatie: gebruik RAG met bronverwijzingen zodat de basis voor het antwoord traceerbaar is.

Wat is een Tokens?