Wat is inference?
AI-modellen doorlopen twee fundamenteel verschillende fasen: training en inference.
Training is het leerproces: het model wordt blootgesteld aan enorme hoeveelheden data en past zijn interne parameters aan om patronen te leren herkennen. Dit is een éénmalig (of periodiek) intensief proces dat maanden duurt en miljoenen euro's kost.
Inference is het gebruik: wanneer u een vraag stelt aan ChatGPT, een document laat samenvatten of een chatbot een klant laat helpen — dat is inference. Het model past zijn geleerde kennis toe op uw specifieke input.
Voor zakelijke gebruikers is inference de enige fase die dagelijks relevant is.
Waarom inference-kosten belangrijk zijn
Elk gebruik van een AI-model via de API kost geld. De kosten worden berekend per token (zie [[tokens]]). Bij licht gebruik is dit verwaarloosbaar. Bij hoog volume — duizenden queries per dag — wordt inference een significante kostpost.
Richtlijn inference-kosten (2026):
| Gebruik | Dagelijkse API-kosten |
|---|---|
| 100 korte queries/dag | €0,05–0,20 |
| 1.000 queries/dag | €0,50–2,00 |
| 10.000 queries/dag | €5–20 |
| 100.000 queries/dag | €50–200 |
Dit zijn directe API-kosten. SaaS-producten (ChatGPT Teams, Claude Pro) berekenen een vaste prijs en dragen het inference-risico zelf.
Inference snelheid en latency
Inference heeft een verwerkingstijd. Hoe groter het model en hoe langer het antwoord, hoe langzamer de respons.
Moderne optimalisaties (zoals streaming: het model begint te antwoorden terwijl het nog bezig is) verbergen dit voor de eindgebruiker. Maar voor realtime toepassingen (telefonie, live chat) is latency een kritische parameter.
Latency-categorieën:
- GPT-4o, Claude 3.5 Sonnet: 1–3 seconden voor korte antwoorden
- Grote documenten verwerken: 5–30 seconden
- Complexe redenering (o3-model): 30 seconden tot enkele minuten
On-premise vs. cloud inference
Cloud inference (via OpenAI, Anthropic, Google API): geen infrastructuurkosten, pay-per-use, altijd de nieuwste modellen. Nadeel: data verlaat uw omgeving.
On-premise inference: u draait het model op eigen servers of private cloud. Volledige dataregie, lagere kosten bij hoog volume, maar hoge initiële investeringen (GPU-servers: €10.000–100.000+) en technische complexiteit.
Voor de meeste Nederlandse MKBs: cloud inference. Voor grote organisaties met gevoelige data of hoog volume: private deployment overwegen.
Gerelateerde begrippen
- [[tokens]] — de eenheid voor inference-kosten
- [[api]] — hoe inference programmatisch wordt aangestuurd
- [[fine-tuning]] — hoe een model wordt aangepast voor betere inference op specifieke taken
- [[llm]] — de modellen die inference uitvoeren