Terug naar AI Woordenboek

Training data

Trainingsdata
De dataset waarmee een AI-model leert — de kwaliteit van die data bepaalt direct de kwaliteit van het model.

Wat is Training data?

Training data is de verzameling gegevens waarmee een AI-model getraind wordt. Het model leert patronen, samenhangen en regels uit deze data. De kwaliteit en representativiteit van de trainingsdata bepalen direct hoe goed het model presteert.

Bij grote taalmodellen bestaat de trainingsdata uit miljarden pagina’s tekst van het internet, boeken en artikelen. Bij specifieke bedrijfstoepassingen kan het gaan om duizenden gelabelde voorbeelden: goedgekeurde claims, gecategoriseerde klachten, beoordeelde offertes.

Het bekende principe ‘garbage in, garbage out’ geldt hier volop. Als je trainingsdata fouten bevat, leert het model die fouten. Als de data eenzijdig is, wordt het model eenzijdig. Dit is de voornaamste oorzaak van bias in AI.

Voor de meeste bedrijfstoepassingen hoef je geen eigen model te trainen. Je gebruikt bestaande modellen en maakt ze specifiek met RAG of fine-tuning. Maar ook dan geldt: de kwaliteit van jouw documenten en data bepaalt de kwaliteit van het resultaat.

Voorbeeld uit de praktijk

Een recruitmentbureau wil AI inzetten om cv's te screenen. Ze trainen het model op basis van cv's van succesvolle plaatsingen uit de afgelopen vijf jaar. Maar als in die periode voornamelijk mannelijke kandidaten zijn geplaatst, leert het model dat patroon over te nemen. Pas na het opschonen en balanceren van de trainingsdata werkt het systeem eerlijk.

Wat betekent dit voor jouw organisatie?

Data is het fundament van elke AI-oplossing. Agentech begint elk project met een beoordeling van je data: is het voldoende, betrouwbaar en representatief? Want de beste technologie werkt niet zonder goede data.

Van begrip naar actie
Weten wat AI kan is stap een. Ontdekken wat het voor jouw organisatie betekent is stap twee.
Plan een adviesgesprek
Scroll naar boven