Hadoop fornisce un elevato vantaggio competitivo alle organizzazioni che lo adottano grazie alla capacità di gestire grandi volumi di dati e di estrarne valore per il business.
Il file system distribuito che caratterizza Hadoop rende tuttavia complessa la governance del dato e la questione è tanto più critica
quanto maggiori sono i volumi gestiti: data architects, data engineers, data scientists, e business analysts si trovano a dover esplorare e catalogare grandissime quantità di files e i Chief Data Officers e i loro data stewards non sono in grado di sapere se i contenuti di Hadoop sono “affidabili” e compliant.

Waterline Data Inventory è una piattaforma per la discovery automatica dei dati su Hadoop:
cataloga i dati in modo automatico, consente agli utenti di trovare e comprendere le informazioni d’interesse per fornirle alle funzioni di preparation e ai tools di analisi.
La piattaforma Waterline Data Inventory è certificata su tutte le principali distribuzioni di Hadoop (Hortonworks®, Cloudera®, Pivotal®, MapR®)
e si integra perfettamente con esse.


DATA INVENTORY



Waterline Data Inventory profila e cataloga automaticamente tutti i files presenti su Hadoop. Rileva la variazioni dei contenuti dei files (schema changes) informandone gli utenti con una notifica.
La piattaforma verifica ogni campo presente in un file per desumerne il significato, identifica conseguentemente i tags da associarvi e genera statistiche su di esso. Gli utenti possono manualmente inserire tags, Waterline Data Inventory automaticamente li propaga a campi simili (cosiddetto "tag crowdsourcing").


Data Inventory
Back to top contatti

TROVA E COMPRENDI I DATI


In cuore di Waterline Data Inventory è la meta-datazione che consente di supportare un sistema di ricerca dei dati per categoria. Gli utenti possono individuare rapidamente il file di proprio interesse senza dover sprecare risorse a ispezionare l’intero cluster.
Waterline Data Inventory consente di risparmiare tempo prezioso abilitando data engineers e data scientists a consultare le statistiche a “livello di singolo campo” senza scrivere codice.


Trova e comprendi i dati
Back to top contatti

DATA PROVISIONING


Una volta individuato il file di proprio interesse, l’utente può scegliere se generare automaticamente una tabella Hive o copiarlo in una directory per effettuare il cosiddetto “data wrangling”.
A supporto del life cycle managament dei files, la piattaforma tiene traccia delle versioni intermedie e “golden” dopo il processo di wrangling.


Data Provisioning
Back to top contatti

DATA GOVERNANCE

Con Waterline Data Inventory i data stewards possono gestire tags e ontologie.
Waterline Data Inventory individua automaticamente il data lineage, consente agli utenti di vedere le lineage information e di esplorarle nel dettaglio mentre lavorano sui dati.
E’ possibile integrare Waterline Data Inventory con altri tools di lineage che operano su dati esterni ad Hadoop per ottenere una visiona organica delle informazioni complessive di lineage.
Waterline Data Inventory è in grado di individuare automaticamente dati sensibili.


Data Governance
Back to top contatti