Wat is multimodaal AI?
Vroege AI-modellen waren unimodaal: ze verwerken één type input. Een taalmodel las tekst. Een beeldherkenningssysteem keek naar foto's. Ze konden niet met elkaar communiceren.
Multimodale modellen doorbreken deze grens. GPT-4o, Claude 3.5 en Gemini 1.5 zijn alle multimodaal: ze begrijpen tekst, afbeeldingen, documenten en (gedeeltelijk) audio en video — in combinatie.
Praktische toepassingen voor bedrijven
Documentanalyse Upload een PDF met tabellen, grafieken en tekst. Een multimodaal model leest de tekst én begrijpt de grafische elementen. "Vat deze jaarrekening samen, inclusief de conclusies die je trekt uit de grafieken."
Productfoto's beschrijven Upload een productfoto. Het model genereert een productbeschrijving, identificeert eventuele gebreken, of vergelijkt het met een referentiefoto.
Facturen en bonnen verwerken Foto van een kassabon → model extraheert datum, bedrag, leverancier en BTW-bedrag → exporteert naar boekhoudpakket. Geen handmatig overtypen meer.
Visuele kwaliteitscontrole Foto's van producten of bouwwerken analyseren op gebreken, afwijkingen of niet-naleving van specificaties.
Formulieren verwerken Handgeschreven formulieren (toestemmingen, inschrijvingen, klachtenformulieren) digitaliseren en structureren.
Beperkingen
Multimodale modellen zijn indrukwekkend maar niet onfeilbaar:
- Nauwkeurigheid bij kleine details — kleine tekst in afbeeldingen of complexe tabellen worden soms fout gelezen
- Video-begrip — de meeste modellen begrijpen losse frames beter dan bewegende video
- Realtime audio — gesproken conversaties in realtime zijn een aparte specialisatie (zie ElevenLabs, Whisper)
Strategische implicatie
Multimodaliteit vergroot het aantal processen dat AI kan automatiseren aanzienlijk. Processen die eerder niet geautomatiseerd konden worden (omdat ze visuele input vereisten) zijn nu potentiële kandidaten. Denk aan: factuurverwerking, kwaliteitscontrole, documentmanagement, compliance-checks op visuele materialen.
Gerelateerde begrippen
- [[llm]] — de tekstlaag van multimodale modellen
- [[transformer]] — de architectuur die multimodaliteit mogelijk maakt
- [[prompt-engineering]] — hoe je multimodale modellen het beste instrueert