In deel 1 van mijn blogserie heb ik toegelicht wat mijn werk inhoudt. En dat data verwerken gezien kan worden als een productieproces. In deze blog wil ik verder ingaan op de term ‘datafabriek’, waarmee ik de vorige blog eindigde.
Om ruwe data te verwerken voor rapportage worden gespecialiseerde systemen gebruikt. Een van de systemen die hierbij vaak centraal staat is het Data Warehouse, of, zoals nu in opkomst is, het Data Lakehouse. Met een dergelijk systeem kan ruwe, onbewerkte data worden ingeladen, opgeschoond en worden verwerkt tot bijvoorbeeld een datamart. Op basis van die modellen kunnen rapportages gebouwd worden.
Laat me dit wat verder toelichten. Een Warehouse, ofwel magazijn, is in feite een opslag waar goederen bewaard worden totdat ze nodig zijn. Als je vanuit een logistiek oogpunt naar data kijkt, dan klopt dit op het eerste gezicht vrij aardig. Ruwe data worden inderdaad van de bron naar de rapporten gestuurd. Maar er komt bij een dataverwerkingsproces meer kijken dan alleen data van A naar B brengen. De opgehaalde ruwe data wordt opgeschoond en verfijnd (getransformeerd), zodat het verwerkt kan worden in rapporten. Maar door deze verfijning kan data ook met andere bronnen worden gecombineerd. Dit voegt waarde toe aan de data en kan leiden tot nieuwe inzichten. Bijvoorbeeld: welke invloed heeft het weer op de verkoop van producten? Worden er 40% of 10% meer paraplu’s verkocht bij slecht weer? Door data te combineren, zou je dat percentage kunnen berekenen.
Omdat data niet alleen wordt getransporteerd, maar ook wordt getransformeerd, dekt de term Warehouse de lading dus niet. Ik vind een datafabriek een passendere omschrijving. Dat is een plek waar daadwerkelijk dingen van waarde worden geproduceerd. Een Warehouse is daar zeker een onderdeel van, maar met data werken vraagt om een breder perspectief: het is een productieproces met alle facetten daaromheen.
Ik geloof dat veel implementaties door bedrijven daarom niet goed worden benaderd. Men denkt: ik zet een Data Warehouse neer en dan gaan we rapporten maken. Maar in werkelijkheid moet er een productieproces worden opgezet. Voor een productieproces moeten ook afspraken en taken worden vastgelegd en er moet verantwoordelijkheid worden genomen. Wanneer je je data-avontuur ziet als een digitale fabriek met een productieproces dat gemanaged moet worden, ga je doeltreffender naar je dataverwerkingswerkprocessen kijken en komen er vragen naar voren zoals:
Om dit soort vraagstukken te kunnen tackelen, moet je de datafabriek dus managen. Hiervoor hebben we een mooie term: Data Management. In mijn volgende blog ga ik verder in op het hoe en wat van Data Management.
Harm van Giersbergen
Data & Analytics Consultant
Deel dit met uw volgers
In deel 1 van mijn blogserie heb ik toegelicht wat mijn werk inhoudt. En dat data verwerken gezien kan worden als een productieproces. In deze blog wil ik verder ingaan op de term ‘datafabriek’, waarmee ik de vorige blog eindigde.
Om ruwe data te verwerken voor rapportage worden gespecialiseerde systemen gebruikt. Een van de systemen die hierbij vaak centraal staat is het Data Warehouse, of, zoals nu in opkomst is, het Data Lakehouse. Met een dergelijk systeem kan ruwe, onbewerkte data worden ingeladen, opgeschoond en worden verwerkt tot bijvoorbeeld een datamart. Op basis van die modellen kunnen rapportages gebouwd worden.
Laat me dit wat verder toelichten. Een Warehouse, ofwel magazijn, is in feite een opslag waar goederen bewaard worden totdat ze nodig zijn. Als je vanuit een logistiek oogpunt naar data kijkt, dan klopt dit op het eerste gezicht vrij aardig. Ruwe data worden inderdaad van de bron naar de rapporten gestuurd. Maar er komt bij een dataverwerkingsproces meer kijken dan alleen data van A naar B brengen. De opgehaalde ruwe data wordt opgeschoond en verfijnd (getransformeerd), zodat het verwerkt kan worden in rapporten. Maar door deze verfijning kan data ook met andere bronnen worden gecombineerd. Dit voegt waarde toe aan de data en kan leiden tot nieuwe inzichten. Bijvoorbeeld: welke invloed heeft het weer op de verkoop van producten? Worden er 40% of 10% meer paraplu’s verkocht bij slecht weer? Door data te combineren, zou je dat percentage kunnen berekenen.
Omdat data niet alleen wordt getransporteerd, maar ook wordt getransformeerd, dekt de term Warehouse de lading dus niet. Ik vind een datafabriek een passendere omschrijving. Dat is een plek waar daadwerkelijk dingen van waarde worden geproduceerd. Een Warehouse is daar zeker een onderdeel van, maar met data werken vraagt om een breder perspectief: het is een productieproces met alle facetten daaromheen.
Ik geloof dat veel implementaties door bedrijven daarom niet goed worden benaderd. Men denkt: ik zet een Data Warehouse neer en dan gaan we rapporten maken. Maar in werkelijkheid moet er een productieproces worden opgezet. Voor een productieproces moeten ook afspraken en taken worden vastgelegd en er moet verantwoordelijkheid worden genomen. Wanneer je je data-avontuur ziet als een digitale fabriek met een productieproces dat gemanaged moet worden, ga je doeltreffender naar je dataverwerkingswerkprocessen kijken en komen er vragen naar voren zoals:
Om dit soort vraagstukken te kunnen tackelen, moet je de datafabriek dus managen. Hiervoor hebben we een mooie term: Data Management. In mijn volgende blog ga ik verder in op het hoe en wat van Data Management.
Harm van Giersbergen
Data & Analytics Consultant
Scamander
Bernhardstraat 1
3433 EL Nieuwegein
Algemeen: 030-6029000
KvK : 30 15 16 09, Utrecht
E-mail: info@scamander.com
Scamander
Bernhardstraat 1
3433 EL Nieuwegein
Algemeen: 030-6029000
KvK : 30 15 16 09, Utrecht
E-mail: info@scamander.com
Copyright Scamander 2024
Copyright Scamander 2024