Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
Search in posts
Search in pages
dslc_downloads
events_agenda
klanten
dslc_projects
vacature
Header image blog Harm datafabriek

Vergeet Data Ware- of Lakehouse! Denk Datafabriek.

  • 29 augustus 2024

Deel 2 van blogserie ‘Ik werk met data, wat doe ik dan precies?’

In deel 1 van mijn blogserie heb ik toegelicht wat mijn werk inhoudt. En dat data verwerken gezien kan worden als een productieproces. In deze blog wil ik verder ingaan op de term ‘datafabriek’, waarmee ik de vorige blog eindigde.

Om ruwe data te verwerken voor rapportage worden gespecialiseerde systemen gebruikt. Een van de systemen die hierbij vaak centraal staat is het Data Warehouse, of, zoals nu in opkomst is, het Data Lakehouse. Met een dergelijk systeem kan ruwe, onbewerkte data worden ingeladen, opgeschoond en worden verwerkt tot bijvoorbeeld een datamart. Op basis van die modellen kunnen rapportages gebouwd worden. 

Waarom een warehouse niet de lading dekt

Laat me dit wat verder toelichten. Een Warehouse, ofwel magazijn, is in feite een opslag waar goederen bewaard worden totdat ze nodig zijn. Als je vanuit een logistiek oogpunt naar data kijkt, dan klopt dit op het eerste gezicht vrij aardig. Ruwe data worden inderdaad van de bron naar de rapporten gestuurd. Maar er komt bij een dataverwerkingsproces meer kijken dan alleen data van A naar B brengen. De opgehaalde ruwe data wordt opgeschoond en verfijnd (getransformeerd), zodat het verwerkt kan worden in rapporten. Maar door deze verfijning kan data ook met andere bronnen worden gecombineerd. Dit voegt waarde toe aan de data en kan leiden tot nieuwe inzichten. Bijvoorbeeld: welke invloed heeft het weer op de verkoop van producten? Worden er 40% of 10% meer paraplu’s verkocht bij slecht weer? Door data te combineren, zou je dat percentage kunnen berekenen.

Omdat data niet alleen wordt getransporteerd, maar ook wordt getransformeerd, dekt de term Warehouse de lading dus niet. Ik vind een datafabriek een passendere omschrijving. Dat is een plek waar daadwerkelijk dingen van waarde worden geproduceerd. Een Warehouse is daar zeker een onderdeel van, maar met data werken vraagt om een breder perspectief: het is een productieproces met alle facetten daaromheen.

De juiste benadering

Ik geloof dat veel implementaties door bedrijven daarom niet goed worden benaderd. Men denkt: ik zet een Data Warehouse neer en dan gaan we rapporten maken. Maar in werkelijkheid moet er een productieproces worden opgezet. Voor een productieproces moeten ook afspraken en taken worden vastgelegd en er moet verantwoordelijkheid worden genomen. Wanneer je je data-avontuur ziet als een digitale fabriek met een productieproces dat gemanaged moet worden, ga je doeltreffender naar je dataverwerkingswerkprocessen kijken en komen er vragen naar voren zoals:

  • Wat is de kwaliteit van de data (Data Quality)?
  • Lopen mijn processen op tijd en efficiënt?
  • Verwerk ik mijn data veilig en juist (Data Security)?

Om dit soort vraagstukken te kunnen tackelen, moet je de datafabriek dus managen. Hiervoor hebben we een mooie term: Data Management. In mijn volgende blog ga ik verder in op het hoe en wat van Data Management.

Harm van Giersbergen
Data & Analytics Consultant

Deel dit met uw volgers

Deel 2 van blogserie ‘Ik werk met data, wat doe ik dan precies?’

In deel 1 van mijn blogserie heb ik toegelicht wat mijn werk inhoudt. En dat data verwerken gezien kan worden als een productieproces. In deze blog wil ik verder ingaan op de term ‘datafabriek’, waarmee ik de vorige blog eindigde.

Om ruwe data te verwerken voor rapportage worden gespecialiseerde systemen gebruikt. Een van de systemen die hierbij vaak centraal staat is het Data Warehouse, of, zoals nu in opkomst is, het Data Lakehouse. Met een dergelijk systeem kan ruwe, onbewerkte data worden ingeladen, opgeschoond en worden verwerkt tot bijvoorbeeld een datamart. Op basis van die modellen kunnen rapportages gebouwd worden. 

Waarom een warehouse niet de lading dekt

Laat me dit wat verder toelichten. Een Warehouse, ofwel magazijn, is in feite een opslag waar goederen bewaard worden totdat ze nodig zijn. Als je vanuit een logistiek oogpunt naar data kijkt, dan klopt dit op het eerste gezicht vrij aardig. Ruwe data worden inderdaad van de bron naar de rapporten gestuurd. Maar er komt bij een dataverwerkingsproces meer kijken dan alleen data van A naar B brengen. De opgehaalde ruwe data wordt opgeschoond en verfijnd (getransformeerd), zodat het verwerkt kan worden in rapporten. Maar door deze verfijning kan data ook met andere bronnen worden gecombineerd. Dit voegt waarde toe aan de data en kan leiden tot nieuwe inzichten. Bijvoorbeeld: welke invloed heeft het weer op de verkoop van producten? Worden er 40% of 10% meer paraplu’s verkocht bij slecht weer? Door data te combineren, zou je dat percentage kunnen berekenen.

Omdat data niet alleen wordt getransporteerd, maar ook wordt getransformeerd, dekt de term Warehouse de lading dus niet. Ik vind een datafabriek een passendere omschrijving. Dat is een plek waar daadwerkelijk dingen van waarde worden geproduceerd. Een Warehouse is daar zeker een onderdeel van, maar met data werken vraagt om een breder perspectief: het is een productieproces met alle facetten daaromheen.

De juiste benadering

Ik geloof dat veel implementaties door bedrijven daarom niet goed worden benaderd. Men denkt: ik zet een Data Warehouse neer en dan gaan we rapporten maken. Maar in werkelijkheid moet er een productieproces worden opgezet. Voor een productieproces moeten ook afspraken en taken worden vastgelegd en er moet verantwoordelijkheid worden genomen. Wanneer je je data-avontuur ziet als een digitale fabriek met een productieproces dat gemanaged moet worden, ga je doeltreffender naar je dataverwerkingswerkprocessen kijken en komen er vragen naar voren zoals:

  • Wat is de kwaliteit van de data (Data Quality)?
  • Lopen mijn processen op tijd en efficiënt?
  • Verwerk ik mijn data veilig en juist (Data Security)?

Om dit soort vraagstukken te kunnen tackelen, moet je de datafabriek dus managen. Hiervoor hebben we een mooie term: Data Management. In mijn volgende blog ga ik verder in op het hoe en wat van Data Management.

Harm van Giersbergen
Data & Analytics Consultant