Wat zijn Tokens?
Tokens zijn de basiseenheden waarmee een LLM tekst verwerkt. Een taalmodel leest geen letters of woorden direct — het converteert eerst de input naar tokens, verwerkt die tokens, en genereert vervolgens nieuwe tokens als output.
Een token is doorgaans een woord, een woorddeel of een leesteken. De exacte opdeling verschilt per tokenizer (het systeem dat tokens definieert), maar vuistregels voor het Engels:
- 1 token ≈ ¾ woord
- 100 tokens ≈ 75 woorden
- 1.000 tokens ≈ 750 woorden ≈ 1,5 A4-pagina
Voor het Nederlands geldt een iets hogere tokenratio: Nederlandse woorden zijn gemiddeld langer, waardoor dezelfde Nederlandse zin meer tokens verbruikt dan de Engelse equivalent — typisch 20-30% meer.
Waarom zijn Tokens Relevant voor Uw Bedrijf?
Tokens bepalen drie cruciale aspecten van LLM-gebruik:
1. Kosten AI-providers rekenen per token — zowel voor invoer (input tokens) als uitvoer (output tokens). Output is doorgaans 3-5× duurder per token dan input, omdat het genereren van tekst meer computervermogen vereist dan het lezen ervan.
2. Contextlimieten Elk LLM heeft een maximaal context window gemeten in tokens. Alles buiten dat venster ziet het model niet. Als u een lang document verwerkt én een uitgebreide systeemprompte heeft én een lange gesprekshistorie — moet dat allemaal in het context window passen.
3. Latency Hoe meer output-tokens het model genereert, hoe langer het duurt. Voor real-time toepassingen (chatbots, telefonische AI) is token-efficiëntie direct van invloed op de gebruikerservaring.
Tarieven van de Belangrijkste LLM-Providers (2025)
Tarieven worden uitgedrukt per miljoen tokens (MTok):
| Model | Input (per MTok) | Output (per MTok) | Context window |
|---|---|---|---|
| GPT-4o (OpenAI) | $2,50 | $10,00 | 128.000 tokens |
| GPT-4o mini | $0,15 | $0,60 | 128.000 tokens |
| Claude 3.5 Sonnet (Anthropic) | $3,00 | $15,00 | 200.000 tokens |
| Claude 3 Haiku | $0,25 | $1,25 | 200.000 tokens |
| Gemini 1.5 Pro (Google) | $1,25 | $5,00 | 2.000.000 tokens |
| Gemini 1.5 Flash | $0,075 | $0,30 | 1.000.000 tokens |
| Llama 3.1 70B (via Groq) | $0,59 | $0,79 | 128.000 tokens |
Tarieven zijn indicatief en worden regelmatig aangepast door providers.
Praktische Kostenberekening
Voorbeeld: AI-mailrespons voor 100 e-mails per dag
Aannames:
- Gemiddelde inkomende e-mail: 150 woorden → ~200 tokens
- Systeemprompte (instructies voor de AI): 500 tokens
- Gegenereerd antwoord: 200 woorden → ~270 tokens
Totaal per e-mail: 200 + 500 = 700 input-tokens + 270 output-tokens
Dagelijkse API-kosten met GPT-4o:
- Input: 100 × 700 tokens = 70.000 tokens = 0,07 MTok × $2,50 = $0,18
- Output: 100 × 270 tokens = 27.000 tokens = 0,027 MTok × $10,00 = $0,27
- Totaal per dag: ~$0,45 | Per maand: ~$13,50
Met GPT-4o mini (voldoende voor standaard mailresponse):
- Totaal per dag: ~$0,02 | Per maand: ~$0,60
Conclusie: voor de meeste standaard zakelijke toepassingen zijn de directe API-kosten verwaarloosbaar. De investering zit in de implementatie, niet in het API-verbruik.
Context Window: Wat Past Er In?
Moderne LLM's hebben grote context windows. Ter referentie wat er in past bij de gangbare modellen:
| Context window | Wat past er in |
|---|---|
| 8.000 tokens | 6.000 woorden — een lang rapport |
| 32.000 tokens | 24.000 woorden — een businessplan |
| 128.000 tokens | 96.000 woorden — een gemiddeld boek |
| 200.000 tokens | 150.000 woorden — meerdere boeken of een groot contractarchief |
| 2.000.000 tokens | 1.500.000 woorden — een volledige wetgevingsdatabank |
Praktische implicatie: met Claude of Gemini kunt u een volledige contracthistorie van een klant meegeven en de AI vragen naar patronen — alles past in één aanvraag.
Tokenoptimalisatie: Kosten Beheersen
Bij hoog-volume toepassingen loont het om actief op tokens te optimaliseren:
Comprimeer systeemprompts: Elke aanvraag begint met de systeemprompte (de instructies). Een kortere maar even effectieve prompte spaart tokens bij elke aanvraag.
Kies het juiste model: Goedkopere modellen (GPT-4o mini, Claude 3 Haiku) zijn voor 70-80% van de zakelijke taken adequaat. Gebruik dure modellen alleen voor complexe redeneerketens.
Beperk gesprekshistorie: In chatbots groeit de gesprekshistorie met elke beurt. Sla alleen de laatste N berichten op in de context in plaats van de volledige geschiedenis.
Caching: OpenAI en Anthropic bieden prompt caching aan — statische systeemprompts die herhaald worden, worden goedkoper verwerkt bij herhaling. Bij grote prompts levert dit 50-90% kostenreductie op op de input-tokens.
Samenvatting van lange threads: In plaats van een volledige conversatiehistorie mee te sturen, laat de AI periodiek een samenvatting maken die de context comprimeert.
Tokens en de EU AI Act
De EU AI Act vereist transparantie over geautomatiseerde besluitvorming. Voor AI-toepassingen waarbij de output rechtsgevolgen heeft, moet u kunnen uitleggen hoe de AI tot zijn conclusie is gekomen. Token-voor-token generatie maakt dit inherent lastig — een LLM geeft geen "beslissingspad" terug. Mitigatie: gebruik RAG met bronverwijzingen zodat de basis voor het antwoord traceerbaar is.