Latency
Wat is Latency?
Latency is de vertraging tussen het moment dat je een verzoek stuurt en het moment dat je het antwoord ontvangt. Bij een chatbot wil je antwoord in 1-2 seconden. Bij batchverwerking van documenten maakt een minuut niet uit.
Latency wordt bepaald door meerdere factoren: de grootte van het model (grotere modellen zijn langzamer), de hoeveelheid input (meer tokens = meer tijd), de afstand tot de server en de serverbelasting.
Voor real-time toepassingen (chatbots, klantenservice) is lage latency cruciaal. Voor achtergrondprocessen (documentverwerking, analyses) is het minder belangrijk.
Slimme architectuurkeuzes verlagen latency: een kleiner model voor eenvoudige taken, caching voor herhaalde vragen, en edge computing voor lokale verwerking.
Voorbeeld uit de praktijk
Een klantenservice-chatbot moet binnen 2 seconden reageren. Door een kleiner, geoptimaliseerd model te gebruiken voor standaardvragen en alleen complexe vragen door te sturen naar het grote model, daalt de gemiddelde responstijd van 4 naar 1,5 seconde.
Wat betekent dit voor jouw organisatie?
Agentech optimaliseert latency als onderdeel van het systeemontwerp. Snel waar het moet, grondig waar het mag.
