Terug naar AI Woordenboek

Latency

Vertraging (responstijd)
De tijd tussen het versturen van een verzoek aan een AI-systeem en het ontvangen van het antwoord.

Wat is Latency?

Latency is de vertraging tussen het moment dat je een verzoek stuurt en het moment dat je het antwoord ontvangt. Bij een chatbot wil je antwoord in 1-2 seconden. Bij batchverwerking van documenten maakt een minuut niet uit.

Latency wordt bepaald door meerdere factoren: de grootte van het model (grotere modellen zijn langzamer), de hoeveelheid input (meer tokens = meer tijd), de afstand tot de server en de serverbelasting.

Voor real-time toepassingen (chatbots, klantenservice) is lage latency cruciaal. Voor achtergrondprocessen (documentverwerking, analyses) is het minder belangrijk.

Slimme architectuurkeuzes verlagen latency: een kleiner model voor eenvoudige taken, caching voor herhaalde vragen, en edge computing voor lokale verwerking.

Voorbeeld uit de praktijk

Een klantenservice-chatbot moet binnen 2 seconden reageren. Door een kleiner, geoptimaliseerd model te gebruiken voor standaardvragen en alleen complexe vragen door te sturen naar het grote model, daalt de gemiddelde responstijd van 4 naar 1,5 seconde.

Wat betekent dit voor jouw organisatie?

Agentech optimaliseert latency als onderdeel van het systeemontwerp. Snel waar het moet, grondig waar het mag.

Van begrip naar actie
Weten wat AI kan is stap een. Ontdekken wat het voor jouw organisatie betekent is stap twee.
Plan een adviesgesprek
Scroll naar boven