Terug naar AI Woordenboek

Multimodal AI

Multimodale AI
AI die meerdere typen input tegelijk kan verwerken: tekst, beeld, geluid en video door elkaar.

Wat is Multimodal AI?

Multimodale AI is AI die niet beperkt is tot één type input maar meerdere modaliteiten tegelijk kan verwerken. Tekst én beeld, of beeld én geluid, of alle drie tegelijk. Moderne modellen als GPT-4V en Claude kunnen bijvoorbeeld een foto analyseren en er in tekst over rapporteren.

Dit opent mogelijkheden die met alleen tekst-AI niet haalbaar zijn. Een multimodaal model kan een foto van schade beoordelen, een grafiek interpreteren, een handgeschreven notitie lezen of een screenshot van een foutmelding analyseren.

Voor bedrijfsautomatisering betekent multimodale AI dat meer processen geautomatiseerd kunnen worden. Processen die voorheen een menselijk oog vereisten — visuele inspectie, het lezen van complexe documenten met tabellen en grafieken, het beoordelen van foto’s — zijn nu kandidaten voor automatisering.

De technologie is snel aan het verbeteren. Verwacht de komende jaren multimodale agents die video kunnen verwerken, telefoongesprekken kunnen voeren en schermen kunnen ‘lezen’.

Voorbeeld uit de praktijk

Een technisch installatiebedrijf laat monteurs foto's maken van installaties. Een multimodaal AI-model analyseert de foto samen met het werkdossier (tekst) en bepaalt of de installatie conform specificaties is. Het genereert een rapport met bevindingen en eventuele afwijkingen.

Wat betekent dit voor jouw organisatie?

Multimodale AI vergroot de reikwijdte van automatisering enorm. Agentech verkent samen met je of visuele of auditieve AI-toepassingen waarde kunnen toevoegen aan je processen.

Van begrip naar actie
Weten wat AI kan is stap een. Ontdekken wat het voor jouw organisatie betekent is stap twee.
Plan een adviesgesprek
Scroll naar boven