Goal drift
Wat is Goal drift?
Goal drift is wanneer een AI-agent geleidelijk afwijkt van het doel waarvoor hij is ingezet. Dit kan gebeuren door subtiele fouten die zich opstapelen, door manipulatie (prompt injection) of door onverwachte omstandigheden die de agent in een ander pad duwen.
Het verraderlijke van goal drift is dat het geleidelijk gaat. De agent doet nog steeds dingen, maar niet meer de juiste dingen. Het is als een navigatiesysteem dat langzaam een verkeerde route neemt — je merkt het pas als je ver van je bestemming bent.
Goal monitoring is het mechanisme dat goal drift detecteert. Door continu te vergelijken wat de agent doet met wat hij zou moeten doen, kun je afwijkingen vroegtijdig signaleren.
Goal drift is een van de risico’s die specifiek is voor AI-agents en niet bestaat bij traditionele software. Traditionele software doet altijd precies hetzelfde. AI-agents kunnen variëren — en dat is zowel hun kracht als hun risico.
Voorbeeld uit de praktijk
Een AI-agent voor klantenservice beantwoordt normaal standaardvragen. Door een reeks ongebruikelijke vragen raakt de agent 'verdwaald' in een ander gespreksonderwerp en begint technische informatie te delen die niet bedoeld is voor klanten. Goal monitoring detecteert de afwijking en reset de agent.
Wat betekent dit voor jouw organisatie?
Agentech bouwt goal monitoring in als standaard beveiligingsmechanisme voor AI-agents die in productie draaien.
