Data lake
Wat is Data lake?
Een data lake is een opslagsysteem waarin je grote hoeveelheden ruwe data kunt dumpen in elk formaat: tekst, spreadsheets, afbeeldingen, logbestanden, sensordata. In tegenstelling tot een data warehouse, waar data eerst gestructureerd moet worden, sla je in een data lake alles op in zijn oorspronkelijke vorm.
Het voordeel: flexibiliteit. Je hoeft niet vooraf te bepalen hoe je de data gaat gebruiken. Je slaat het op en structureert het later, wanneer je een specifieke toepassing hebt. Dat is waardevol voor AI-projecten waarbij je vaak pas achteraf ontdekt welke data waardevol is.
Het risico: een data lake kan verworden tot een ‘data swamp’ als je geen minimale structuur en metadata bijhoudt. Zonder afspraken over naamgeving, herkomst en eigenaarschap wordt het een digitale rommellades waar niemand iets in kan vinden.
Moderne cloud data lakes (AWS S3, Azure Data Lake, Google Cloud Storage) zijn goedkoop, schaalbaar en makkelijk te koppelen aan AI-tools.
Voorbeeld uit de praktijk
Een transportbedrijf slaat in een data lake alle GPS-data van hun vloot op, samen met weerdata, verkeersdata en klantbeoordelingen. Een data scientist kan deze ruwe data later combineren om te analyseren welke factoren de levertijd het meest beïnvloeden.
Wat betekent dit voor jouw organisatie?
Een data lake kan waardevol zijn als startpunt voor AI-analyse. Agentech adviseert of een data lake, data warehouse of een combinatie het best past bij jouw situatie en ambities.
