Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
Search in posts
Search in pages
dslc_downloads
events_agenda
klanten
dslc_projects
vacature
Top-Hadoop-Companies_Final

Datamanagement: uitdaging in Hadoop

  • 9 augustus 2013

Hadoop is een plat file systeem, met als grote voordeel de schaalbaarheid en de snelheid waarmee je een gegeven kunt terugvinden. Dat kan je doen met programmeren in Mapreduce, of simpeler met Hive. Met Hive kan je SQL-en op Hadoop.

Je moet dat filesysteem wel vullen. Dat kan je ook doen met Hive, met bijvoorbeeld een CREATE table. (Zie Hive DDL). De data verdwijnt in een directory van het Hadoop File systeem, en Hive houdt een definitie voor je vast. Maar hoe houd je bij waar de originele data vandaan komt, en hoe weet je of de geladen data actueel is? Dat houdt Hive niet voor je bij. En als je een analyse doet op de data, dan is het wel zo prettig als je kan aantonen waar de data vandaan komt (lineage). En zo ontstaat er een datamanagement uitdaging. En in dat gat springen dan weer leveranciers. Een voorbeeld is Revelytix, dat met Loom een geheugen bijhoudt van dataset, jobs en queries.
20130810-021636.jpg
Een heel ander voorbeeld is GlobalIDS, welke een soort van Master Data Management biedt over al je databronnen, inclusief Hadoop file systemen.

Kortom, met alleen een Hadoop implementatie ben je er nog niet.

Deel dit met uw volgers

Hadoop is een plat file systeem, met als grote voordeel de schaalbaarheid en de snelheid waarmee je een gegeven kunt terugvinden. Dat kan je doen met programmeren in Mapreduce, of simpeler met Hive. Met Hive kan je SQL-en op Hadoop.

Je moet dat filesysteem wel vullen. Dat kan je ook doen met Hive, met bijvoorbeeld een CREATE table. (Zie Hive DDL). De data verdwijnt in een directory van het Hadoop File systeem, en Hive houdt een definitie voor je vast. Maar hoe houd je bij waar de originele data vandaan komt, en hoe weet je of de geladen data actueel is? Dat houdt Hive niet voor je bij. En als je een analyse doet op de data, dan is het wel zo prettig als je kan aantonen waar de data vandaan komt (lineage). En zo ontstaat er een datamanagement uitdaging. En in dat gat springen dan weer leveranciers. Een voorbeeld is Revelytix, dat met Loom een geheugen bijhoudt van dataset, jobs en queries.
20130810-021636.jpg
Een heel ander voorbeeld is GlobalIDS, welke een soort van Master Data Management biedt over al je databronnen, inclusief Hadoop file systemen.

Kortom, met alleen een Hadoop implementatie ben je er nog niet.