Durante l’ultima edizione dell’IT Press Tour (la 14ma e la prima alla quale ho avuto l’onore di partecipare), svoltasi nella Silicon Valley (nel periodo dal primo a 5 dicembre 2014), abbiamo avuto l’occasione di incontrare molte aziende in differenti aree (Cloud, Storage e Big Data).
La prima azienda che abbiamo incontrato durante il quarto giorno è stata Qubole, un’azienda nel settore dei Big Data con una soluzione secondo il modello public cloud.
Nella prima parte, Gil Allouche (VP Marketing) ha illustrato la genesi dell’azienda, la vision e il tipo di soluzione che offrono.
Qubole è stata fondata nel 2011 da Ashish Thusoo e Joydeep Sen Sarma, entrambi provenienti da Facebook, dove erano senior big data engineers e dove avevano realizzato l’infrastruttura di big data di questo social network, come pure il progetto Apache Hive (un’infrastruttura datawarehouse costruita su Hadoop per fornire riepilogo dei dati, interrogazione e analisi). Il quartier generale è a Mountain View (California) e hanno anche un ufficio (per la parte di sviluppo) in Bangalore (India).
L’azienda ha diversi clienti in diverse regioni (Stati Uniti, Europa, India) e tra questi vi sono anche nomi noti ed importanti come Quora, Pinterest, Flipboard …
La soluzione offerta è una piattatorma per i Big Data Analytics venduta in modalita public cloud ed “as a Service” e completamente self-service. La piattaforma è basata su un ambiente Apache Hadoop (offerto come servizio) con funzionalità di auto-scaling a seconda del carico di lavoro richiesto. Inizialmente la piattaforma si appoggiava solo su Amazon AWS, ma oramai è disponibile anche su Google platform o Microsoft Azure.
Per la parte di storage e salvataggio dati, non viene utilizzato il back-end di default di Hadoop (HDFS), ma direttamente lo storage nativo della piattaforma cloud sottostante (quindi, ad esempio, S3 per quando è ospitato su Amazon). I dati sono comunque salvati (di default in modalità cifrata) utilizzando il formato standard Apache Hive (risultando quindi portabili su piattaforme simili). Esitono connettori JDBC e ODBC per collegarsi a DMBS esistenti, oppure un tool per iniettare i dati direttamente partendo da altre sorgenti (esiste anche un connettore specifico per Cloudera).
Il servizio offerto da Qubole presenta alcuni significativi vantaggi:
- Ottimizzazione: grazie alla capacità di auto-scaling permette di ottimizzare le risorse (e minimizza i costi).
- Agilità: il cluster Hadoop è pronto in pochi minuti dalla richiesta del servizio.
- Semplicità: non solo Hadoop, ma un’interfaccia grafica semplice, strumenti potenti, connettori per i dati, …
In particolare, per quanto riguarda l’interfaccia grafica di QDS questa permette di pianificare i job, fornisce un potente query editor, anche in modalità visuale, e molti strumenti di supporto. Sicuramente un punto di forza su una soluzione di data analytics.
Vi sono particolare funzionalità offerte da Qubole Data Workbench, come ad esempio:
- Accesso tramite interfaccia web
- Data governance e funzioni di condivisione dei dati
- Possibilità di realizzare analytics template per utenti non tecnici
- Possibilità di monitorare e creare complesse operazioni di data transformation
Nella seconda parte, Shrikanth Shankar (VP Engineering) ha fornito qualche dettaglio maggiore e anche dei numeri interessanti: Qubole attualmente processa circa 86PB al mese e il cluster più grande che hanno istanziato per un cliente è stato di 1800 nodi. Nella home page del loro sito web esiste anche un contatore dei dati attualmente processati che ha già superato la soglia dei 480PB.
Il listino prezzi è pubblicamente disponibile sul loro sito web e a prima vista potrebbe spaventare (rapportato al mercato italiano). Bisogna però considerare che in questo caso si ha un vero e proprio servizio in modalità cloud senza tutti gli oneri di gestione dell’infrastruttura, ma soprattutto di messa in opera dell’infrastruttura.
Rispetto a qualunque soluzione Hadoop on-premises si hanno poi i vantaggi di avere una piattaforma molto più agile (può scalare automaticamente da 10 a 1000 nodi in pochi minuti), molto più flessibile, senza costi di acquisizione inizali e con un TCO conveniente.
Bisogna poi ricordarsi che non ci troviamo di fronte ad un semplice Hadoop as a Service, ma una soluzione completa composta da diversi strumenti integrati tra di loro.
Per maggiori informazioni vedere anche questi post:
- Silicon Valley 2014 : Qubole, les bénéfices de Hadoop mais dans le cloud (in francese)
- Silicon Valley – QuBole, Big Data as a Service (in francese)
Disclaimer: Sono stato invitato a questo evento da Condor Consulting Group che ha coperto i costi per il viaggio e l’alloggio. Ma non sono stato ricompensato in alcun modo per il mio tempo e non sono in obbligo di scrivere articoli riguardo all’evento stesso e/o gli sponsor. In ogni caso, i contenuti di questi articoli non sono stati concordati, rivisti o approvati dalle aziende menzionate o da altri al di fuori del sottoscritto.