Durante l’ultima edizione dell’IT Press Tour (la 14ma e la prima alla quale ho avuto l’onore di partecipare), svoltasi nella Silicon Valley (nel periodo dal primo a 5 dicembre 2014), abbiamo avuto l’occasione di incontrare molte aziende in differenti aree (Cloud, Storage e Big Data).
L’ultima azienda che abbiamo incontrato alla fine nel secondo giorno del tour è stata Cloudera, durante una piacevole cena informale.
Cloudera è una società di software statunitense che distribuisce un prodotto (in realtà più di uno) basato su Apache Hadoop con in più la fornitura anche di supporto e servizi correlati, come pure di corsi e certificazioni nel settore.
L’azienda non è più una startup, visto che è stata fondata nel “lontano” (informaticamente parlando) 2008 da persone provenienti da Yahoo! (quando ancora contava qualcosa), Facebook, Google e Oracle. Ma è anche sponsor della Apache Software Foundation e uno dei maggiori contribuitori nel mondo OpenSource legato ad Apache Hadoop ed al suo ecosistema.
Tom Reilly (Cloudera CEO) ci ha raccontato un po’ delle origini di Cloudera e qual è la mission aziendale.
Per chi non lo sapesse, Hadoop è sinonimo di Big Data, dato che è un framework per la gestione di migliaia di nodi e di PetaBype di dati. Il progetto include diversi moduli, tra cui i principali sono:
- Hadoop Common: The common utilities that support the other Hadoop modules.
- Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.
- Hadoop YARN: A framework for job scheduling and cluster resource management.
- Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.
Ma vi sono numerosi molti altri moduli. Tutti OpenSource, ma con la complessità di doversi assemblare il tutto. Oppure partire da una distribuzione già fatta e qui entra in gioco Cloudera con la sua CDH.
La distribuzione Apache Hadoop di Cloudera è chiamata Cloudera Distribution Including Apache Hadoop (CDH) e semplica il lavoro per chi deve implementare una simile infrastruttura.
CDH include non sono i moduli di base di Apache Hadoop ma anche numerosi altri moduli OpenSource. L’intera distribuzione è a sua volta rilasciata in forma OpenSource:
CDH può essere scaricata gratuitamente direttamente dal sito di Cloudera. Da questo punto di vista Cloudera assomiglia a molte distribuzioni Linux.
Ma allo stesso modo di alcune distribuzioni Linux (si pensi ad esemio a Red Hat) Cloudera può anche offrire (in questo caso a pagamento) supporto tecnico o prodotti aggiuntivi, come Cloudera Manager (uno strumento di gestione molto evoluto). E questo con distribuzioni come Cloudera Express o Cloudera Enterprise che combinano CDH con altri prodotti e/o servizi.
Quindi parliamo di un’azienda che opera nel mondo dell’OpenSource, che sviluppa e distribuire in modalità OpenSource ma che poi ci mette di suo i servizi e alcuni prodotti invece “proprietari”. Modello usato anche da altre aziende che operano nel mondo dell’OpenSource.
E i servizi sono sicuramente uno dei punti di forza di Cloudera, dato che è stata il precursore nel mondo dei Big Data e dato che questo mondo può solo crescere. Cloudera ha servizi professionali, servizi di consulenza, ma ha anche già sviluppato corsi, formazione e persino certificazione (si vedano le relative tracce sul sito VUE site). E persino in Italia vè possibile seguire corsi specifici e/o certificarsi (sono elencati vari testing center sul suolo italiano). E pure alcune aziende iniziano a chiedere di soluzioni come queste.
Il generale il mondo dei Big Data è un sicuro investimento per il futuro e qua molto è già maturo e pronto. Può sembrare prematuro per l’ambiente italiano, ma come scritto vi sono già aziende che lo chiedono e gli strumenti e la formazione è già disponibile oggi (a tale proposito rimando anche a questo interessante articolo sul come convenga investire in formazione su queste e/o nuove tecnologie).
Ma non è finita, nell’ottobre 2012, Cloudera ha annunciato il progetto Cloudera Impala volto a realizzare un motore per interrogazioni SQL open source ad elaborazione parallela di massa (MPP) per dati archiviati in computer in cui viene eseguito Apache Hadoop. Questo proprio perché i Big Data sono riguardano solo salvare ed accedere a grossi volumi di dati, ma anche come interrogarli in modo efficiente (e magari pure semplice).
Per maggiori informazioni vedere anche:
Disclaimer: Sono stato invitato a questo evento da Condor Consulting Group che ha coperto i costi per il viaggio e l’alloggio. Ma non sono stato ricompensato in alcun modo per il mio tempo e non sono in obbligo di scrivere articoli riguardo all’evento stesso e/o gli sponsor. In ogni caso, i contenuti di questi articoli non sono stati concordati, rivisti o approvati dalle aziende menzionate o da altri al di fuori del sottoscritto.