La complessità e i volumi dei dati disponibili sono sempre più elevati tanto da rendere inadatte le architetture tradizionali per sfruttare appieno l'Era dei Dati.
I "nuovi" data type (clickstream, sensor, social/sentiment, geo, machine generated, ecc.) crescono con un trend annuo dell'85%
e i data system tradizionali non sono in grado di gestirli
o non sono in grado di farlo con un giusto bilanciamento tra costo-opportunità.
Fai evolvere le tue infrastrutture per la gestione dei dati affiancando Hadoop (hadoop.apache.org) ai tuoi sistemi ed estrai rapidamente business value
dai dati strutturati e non.


BREVE STORIA DI HADOOP



breve storia di Hadoop
Back to top contatti

HADOOP IN AZIENDA


Hadoop è la piattaforma ideale per la gestione di Big Data in azienda per le sue caratteristiche che ne fanno una soluzione a costo contenuto, complementare ai tuoi data system e capace di scalare senza limiti:
Hadoop in azienda

un repository
unico per tutti i dati

Uno storage infinitamente scalabile per implementare un Data Lake, un Operational Data Store in grado di ospitare tutti i dati che afferiscono alla tua Organizzazione, siano essi strutturati, che unstructured.

un sistema computazionale

Una capacità computazione in grado di scalare senza limiti al crescere dei dati e delle operazioni da eseguire su di essi, con possibilità di deploy su commodity hardware, sul cloud o su ambienti ibridi.

tutti i tipi di workload

Quale che sia la tua esigenza di elaborazione dati (batch, interattiva, in real time) l’eco-sistema Hadoop ti fornisce un componente dedicato, cost-effective, sicuro e scalabile: una modern data architecture al servizio del tuo business.

Back to top contatti

ECUBE E HADOOP


eCube e Hadoop

Grazie a strategiche partnership internazionali, Ecube ha “osservato” come i fenomeni Big Data e Hadoop si stavano affermavano sin dagli albori sul mercato americano.
Da subito convinti dell’impatto che questi nuovi scenari e delle correlate tecnologie avrebbero avuto sul business, abbiamo investito nella formazione di Risorse per acquisire know-how ed esperienza con l’obbiettivo di portare nuove e potenti soluzioni sul mercato italiano.
Tra le prime società in Italia a occuparsi di Big Data, Ecube è oggi in grado di accompagnarti nel comprendere come sfruttare nuove opportunità per migliorare il tuo business, analizzando i tuoi bisogni e proponendoti soluzioni coerenti con le tue strategie.

CONTATTACI per conoscere come implementare un progetto Hadoop, far evolvere le tue infrastrutture I.T. salvaguardando gli investimenti fatti e contestualmente rendendo pronta la tua azienda per sfruttare i Big Data.

Back to top contatti

L'ECOSISTEMA HADOOP


GOVERNANCE
& INTEGRATION
Data Workflow, Lifecycle & Governance

Falcon
Sqoop
Flume
NFS
WebHDFS
Atlas
Cloudera Navigator
Kafka
DATA ACCESS


In-Mem
Spark
Script
Pig
SQL
Hive/Tez,
Hcatalog
Impala
NoSQL
HBase
Accumulo
Phoenix
Stream
Storm
Search
Solr
Altri
Analytics,
ISV engines
YARN : Data Operating System
HDFS
(Hadoop Distributed File System)
DATA MANAGEMENT
SECURITY
Authentication Authorization Accounting Data Protection

Knox
Ranger
Cloudera Sentry
HDFS Encryption
OPERATIONS
Provision,
Manage &
Monitor


Ambari
Cloudera Manager
Zookeeper
Cloudera Navigator
Cloudbreak

Scheduling

Oozie

HDFS

È il file system distribuito nativo di Hadoop (Hadoop Distribuited File System). È un sistema altamente affidabile, scalabile e resiliente che consente di sfruttare commodity hardware per l’implementazione di un enterprise storage distribuito.

YARN

È un gestore centralizzato di risorse del cluster Hadoop (Yet Another Resource Negotiator): qualsiasi job venga processato all’interno del cluster dovrà essere gestito da YARN (che utilizzerà HDFS per indirizzare l’accesso al dato). Il ruolo di YARN è talmente fondamentale all’interno di un cluster Hadoop 2.x da essere anche conosciuto come Hadoop Operating System.

MAPREDUCE2

MapReduce2 è un framework che consente di processare il dato in modo distribuito grazie all’approccio Map-Shuffle-Reduce.

PIG

È un linguaggio di scripting evoluto che consente di bypassare le difficoltà di approccio al framework MapReduce grazie a una sintassi semplice, ma al tempo stesso potente e efficace. Al momento dell’esecuzione lo script Pig viene automaticamente tradotto in uno o più job Tez o MapReduce2.

HIVE

Hive consente di creare l’infrastruttura necessaria a gestire un completo data warehouse on top of Hadoop. Hive si posiziona all’interno del batch layer di Hadoop e consente di gestire sia dati strutturati che destrutturati immagazzinati all’interno del Blob Storage. Utilizza un linguaggio SQL-like chiamato HiveQL. È ideale per qualsiasi tipo di analytics di tipo non transazionale.

TEZ

L’utilizzo del motore Tez conferisce a Hive performance superiori rispetto a MapReduce2: introducendo concetti quali vettorializzazione e sub second query, avvicina le capacità di Hive allo speed layer.

CLOUDERA IMPALA

Impala è la soluzione di Cloudera “on-top-of-Hadoop” che consente di interrogare in modalità SQL-Like i dati attraverso un massively parallel processing (MPP) engine e che permette di raggiungere elevate performance.

HBASE

HBase è il database NoSQL di Hadoop: utilizza HDFS per immagazzinare i dati ed è totalmente scalabile su tutti i nodi del cluster stesso di Hadoop. Utilizza un modello key-value dove i dati sono distribuiti secondo una mappa key-value ordinati per key. Può contenere miliardi di righe e milioni di colonne.

ACCUMULO

Accumulo è un sistema ad elevate prestazione di storage e retrival dei dati su Hadoop che implementa un controllo granulare dell’accesso al dato (a livello di cella).

SPARK

SPARK è il framework di cluster computing in grado di eseguire elaborazioni multi-stage in memory ad elevate performance. SPARK si compone dei seguenti elementi: SPARK Core, l’engine che rappresenta la foundation del framework, SPARK SQL, il motore che consente l’elaborazione di dati strutturati e semi strutturati (anche con sintassi SQL-Like), SPARK MLlib a supporto di funzioni di machine learning, SPARK STREAMIMG per lo sviluppo di streamimg application e GRAPHX per la graph (e graph-parallel) computation.

STORM

Apache Storm è un sistema distribuito di computazione per processare grandi volume di dati ad alta velocità. Storm è ideale in scenari di real-time analytics, machine learning e continuous monitoring. Oltre che all’analisi dei dati in real-time per renderli disponibili alle applicazioni consumers, Apache Storm viene utilizzato per rendere persistenti i dati su HDFS e su altri repository come HBase.

SOLR

Basata sul progetto Apache Lucene, SOLR supporta operazioni d’indicizzazione e ricerca dei dati salvati su Hadoop. Espone le proprie funzioni via API Rest e formati XML, JSON, CSV.

SQOOP

Sqoop è l’ETL nativo di Hadoop. Consente l’accesso a sistemi RDBMS esterni, la lettura automatica dello schema e l’ingestion dei dati all’interno di HDFS. Grazie all’utilizzo del framework MapReduce2 qualsiasi data ingestion basata su Sqoop è scalabile e altamente performante.

FALCON

Falcon è il framework per la gestione del data lifecycle e per il processing di pipeline su Hadoop. Consente di orchestrare la movimentazione dei dati, il pipeline processing, di gestire processi di distaster recovery e di governare le policy di retention dei dati.

ATLAS

Atlas è un set scalabile ed estensibile di servizi di governance a supporto delle esigenze di compliance basate su tassonomie e policy di metadatazione nella gestione dei dati su Hadoop.

CLOUDERA NAVIGATOR

Navigator è il framework di Cloudera per la gestione della data governance su Hadoop che offre funzioni di data discovery, audit, lineage e metadata management.

FLUME

Flume è uno dei principali tool di data ingestion dell’ecosistema Hadoop per la raccolta, l’aggregazione, il controllo e l’immagazzinamento di stream di dati (tipicamente machine data) all’interno di HDFS.

KAFKA

In una moderna architettura dati costruita su Hadoop, Kafka (in combinazione con Apache Storm) è un componente fondamentale a supporto di processi di real time analysis su data streams. Apache Kafka è un message bus in grado di acquisire pacchetti dati per “consegnarli” garantendo una latenza estremamente ridotta e la possibile persistenza del dato.

AMBARI

Ambari è il sistema di provisioning, amministrazione e monitoraggio dell’Hortonworks Data Platform. È accessibile tramite interfaccia web e implementa un servizio REST API per l’interfacciamento verso i sistemi di gestione enterprise. Grazie all’integrazione con le Ambari Metrics offre un’efficiente strumento di monitoraggio dello stato del cluster e, grazie alle Ambari Views, un portale di accesso ai dati presenti all’interno di Hadoop.

CLOUDERA MANAGER

Cloudera Manager è il componente ideato per centralizzare e rendere più semplici le operation su di un cluster Hadoop. Con CLOUDERA MANAGER è possibile automatizzare il deployment di Hadoop ed effettuare le configurazioni del cluster, gestirne il monitoraggio e supportare le operazioni di troubleshooting.

OOZIE

Oozie è uno schedulatore di workflow che risiede e opera all’interno di Hadoop: è in grado di gestire, controllare e concatenare job MapReduce2, Sqoop, Hive e Pig e può essere utilizzato sia all’interno di un batch layer che di uno speed layer.

ZOOKEEPER

È un servizio centralizzato per la gestione delle configurazioni, la creazione di ensemble per i servizi di naming e group e la sincronizzazione delle distribuzioni di informazioni (es: transazioni distribuite). Molti servizi dell’ecosistema di Hadoop dipendono da ZooKeeper (es: HBase e NameNode HA).

KNOX

Knox gestisce la sicurezza perimetrale delle API REST di un cluster Hadoop grazie all’implementazione dell’autenticazione enterprise (LDAP e Active Directory) e ai token di verifica. È inoltre possibile l’integrazione con sistemi pre-esistenti di enterprise identity management (HTTP Header Based Identity Federation) e supporta i seguenti elementi: HDFS (WebHDFS), HCatalog (WebHCat), Oozie, HBase e Hive.

RANGER

Apache Ranger è il framework centralizzato per la security su Hadoop che consente di gestire granularmene il livello autorizzativo sull’accesso ai dati di componenti quali HDFS, Hive e HBase. Le policy di sicurezza gestite centralmente possono essere configurate per Utenti e Gruppi di Utenti.
Back to top contatti