Top-Hadoop-Companies_Final

Datamanagement: uitdaging in Hadoop

9 augustus 2013

Hadoop is een plat file systeem, met als grote voordeel de schaalbaarheid en de snelheid waarmee je een gegeven kunt terugvinden. Dat kan je doen met programmeren in Mapreduce, of simpeler met Hive. Met Hive kan je SQL-en op Hadoop.

Je moet dat filesysteem wel vullen. Dat kan je ook doen met Hive, met bijvoorbeeld een CREATE table. (Zie Hive DDL). De data verdwijnt in een directory van het Hadoop File systeem, en Hive houdt een definitie voor je vast. Maar hoe houd je bij waar de originele data vandaan komt, en hoe weet je of de geladen data actueel is? Dat houdt Hive niet voor je bij. En als je een analyse doet op de data, dan is het wel zo prettig als je kan aantonen waar de data vandaan komt (lineage). En zo ontstaat er een datamanagement uitdaging. En in dat gat springen dan weer leveranciers. Een voorbeeld is Revelytix, dat met Loom een geheugen bijhoudt van dataset, jobs en queries.

Een heel ander voorbeeld is GlobalIDS, welke een soort van Master Data Management biedt over al je databronnen, inclusief Hadoop file systemen.

Kortom, met alleen een Hadoop implementatie ben je er nog niet.

Hadoop is een plat file systeem, met als grote voordeel de schaalbaarheid en de snelheid waarmee je een gegeven kunt terugvinden. Dat kan je doen met programmeren in Mapreduce, of simpeler met Hive. Met Hive kan je SQL-en op Hadoop.

Je moet dat filesysteem wel vullen. Dat kan je ook doen met Hive, met bijvoorbeeld een CREATE table. (Zie Hive DDL). De data verdwijnt in een directory van het Hadoop File systeem, en Hive houdt een definitie voor je vast. Maar hoe houd je bij waar de originele data vandaan komt, en hoe weet je of de geladen data actueel is? Dat houdt Hive niet voor je bij. En als je een analyse doet op de data, dan is het wel zo prettig als je kan aantonen waar de data vandaan komt (lineage). En zo ontstaat er een datamanagement uitdaging. En in dat gat springen dan weer leveranciers. Een voorbeeld is Revelytix, dat met Loom een geheugen bijhoudt van dataset, jobs en queries.

Een heel ander voorbeeld is GlobalIDS, welke een soort van Master Data Management biedt over al je databronnen, inclusief Hadoop file systemen.

Kortom, met alleen een Hadoop implementatie ben je er nog niet.

Waarom kies je voor een open source data catalogus?

Waarom investeren in een data catalogus?

Vragen en antwoorden over data

(Data)strategie, richting én resultaat

Datawijze overheid – Gemeente ‘s-Hertogenbosch

28 januari – Europese dag van de privacy

Scamander ISO 27001 gecertificeerd

Fijne feestdagen en een gezond 2024

Bekijk de wereld door de lens van data

Het hoe en wat van Azure Cost Management

Eindejaarsactie 2023 – welk doel geef jij wat extra aandacht?

Informatie is dood, lang leve data!

Scamander bestaat 25 jaar! En dat vieren we.

Persbericht: Gemeente ‘s-Hertogenbosch kiest voor Data Platform van Scamander

Mini-conferentie Gemeentelijk Gegevensmodel en het Sociaal Domein

Modelleren is allesbehalve een technische exercitie

Scamander start Gilden voor optimale kennisdeling

Eindejaarsactie 2022 – Welk doel geef jij wat extra aandacht?

e-paper: De juiste definitie in de juiste context

Persbericht: Paul Uijtewaal Algemeen Directeur a.i. bij Scamander

Oeps, een datalek….Tips om ze te voorkomen

AD Artikel: Schiedamse ouderen drukten ruim 400 keer op de Behoeftelijnknop

Eindejaarsactie 2021 – Welk doel geef jij wat extra aandacht?

Vindbaarheid van open data

Scamander
Bernhardstraat 1
3433 EL Nieuwegein
Algemeen: 030-6029000
KvK : 30 15 16 09, Utrecht
E-mail: info@scamander.com

Neem Contact op

Scamander
Bernhardstraat 1
3433 EL Nieuwegein
Algemeen: 030-6029000

KvK : 30 15 16 09, Utrecht

E-mail: info@scamander.com

Neem Contact op

Disclaimer / Cookies / Privacy statement / Algemene voorwaarden

Copyright Scamander 2024

Copyright Scamander 2024

Disclaimer / Cookies / Privacy statement /Algemene voorwaarden