This post is also available in: Inglese

Reading Time: 5 minutes

Durante l’ultima edizione dell’IT Press Tour (la 14ma e la prima alla quale ho avuto l’onore di partecipare), svoltasi nella Silicon Valley (nel periodo dal primo a 5 dicembre 2014), abbiamo avuto l’occasione di incontrare molte aziende in differenti aree (Cloud, Storage e Big Data).

La prima azienda che abbiamo incontrato durante il quarto giorno è stata Qubole, un’azienda nel settore dei Big Data con una soluzione secondo il modello public cloud.

ITPressTour-LogoNella prima parte, Gil Allouche (VP Marketing) ha illustrato la genesi dell’azienda, la vision e il tipo di soluzione che offrono.

Qubole è stata fondata nel 2011 da Ashish Thusoo e Joydeep Sen Sarma, entrambi provenienti da Facebook, dove erano senior big data engineers e dove avevano realizzato l’infrastruttura di big data di questo social network, come pure il progetto Apache Hive (un’infrastruttura datawarehouse costruita su Hadoop per fornire riepilogo dei dati, interrogazione e analisi). Il quartier generale è a Mountain View (California) e hanno anche un ufficio (per la parte di sviluppo) in Bangalore (India).

L’azienda ha diversi clienti in diverse regioni (Stati Uniti, Europa, India) e tra questi vi sono anche nomi noti ed importanti come Quora, Pinterest, Flipboard

La soluzione offerta è una piattatorma per i Big Data Analytics venduta in modalita public cloud ed “as a Service” e completamente self-service. La piattaforma è basata su un ambiente Apache Hadoop (offerto come servizio) con funzionalità di auto-scaling a seconda del carico di lavoro richiesto. Inizialmente la piattaforma si appoggiava solo su Amazon AWS, ma oramai è disponibile anche su Google platform o Microsoft Azure.

Per la parte di storage e salvataggio dati, non viene utilizzato il back-end di default di Hadoop (HDFS), ma direttamente lo storage nativo della piattaforma cloud sottostante (quindi, ad esempio, S3 per quando è ospitato su Amazon). I dati sono comunque salvati (di default in modalità cifrata) utilizzando il formato standard Apache Hive (risultando quindi portabili su piattaforme simili). Esitono connettori JDBC e ODBC per collegarsi a DMBS esistenti, oppure un tool per iniettare i dati direttamente partendo da altre sorgenti (esiste anche un connettore specifico per Cloudera).

Il servizio offerto da Qubole presenta alcuni significativi vantaggi:

  • Ottimizzazione: grazie alla capacità di auto-scaling permette di ottimizzare le risorse (e minimizza i costi).
  • Agilità: il cluster Hadoop è pronto in pochi minuti dalla richiesta del servizio.
  • Semplicità: non solo Hadoop, ma un’interfaccia grafica semplice, strumenti potenti, connettori per i dati, …

Qubole-Benefits

In particolare, per quanto riguarda l’interfaccia grafica di QDS questa permette di pianificare i job, fornisce un potente query editor, anche in modalità visuale, e molti strumenti di supporto. Sicuramente un punto di forza su una soluzione di data analytics.

Vi sono particolare funzionalità offerte da Qubole Data Workbench, come ad esempio:

  • Accesso tramite interfaccia web
  • Data governance e funzioni di condivisione dei dati
  • Possibilità di realizzare analytics template per utenti non tecnici
  • Possibilità di monitorare e creare complesse operazioni di data transformation

Nella seconda parte, Shrikanth Shankar (VP Engineering) ha fornito qualche dettaglio maggiore e anche dei numeri interessanti: Qubole attualmente processa circa 86PB al mese e il cluster più grande che hanno istanziato per un cliente è stato di 1800 nodi. Nella home page del loro sito web esiste anche un contatore dei dati attualmente processati che ha già superato la soglia dei 480PB.

Il listino prezzi è pubblicamente disponibile sul loro sito web e a prima vista potrebbe spaventare (rapportato al mercato italiano). Bisogna però considerare che in questo caso si ha un vero e proprio servizio in modalità cloud senza tutti gli oneri di gestione dell’infrastruttura, ma soprattutto di messa in opera dell’infrastruttura.

Rispetto a qualunque soluzione Hadoop on-premises si hanno poi i vantaggi di avere una piattaforma molto più agile (può scalare automaticamente da 10 a 1000 nodi in pochi minuti), molto più flessibile, senza costi di acquisizione inizali e con un TCO conveniente.

Bisogna poi ricordarsi che non ci troviamo di fronte ad un semplice Hadoop as a Service, ma una soluzione completa composta da diversi strumenti integrati tra di loro.

Per maggiori informazioni vedere anche questi post:

Disclaimer: Sono stato invitato a questo evento da Condor Consulting Group che ha coperto i costi per il viaggio e l’alloggio. Ma non sono stato ricompensato in alcun modo per il mio tempo e non sono in obbligo di scrivere articoli riguardo all’evento stesso e/o gli sponsor. In ogni caso, i contenuti di questi articoli non sono stati concordati, rivisti o approvati dalle aziende menzionate o da altri al di fuori del sottoscritto.

Share

Virtualization, Cloud and Storage Architect. Tech Field delegate. VMUG IT Co-Founder and board member. VMware VMTN Moderator and vExpert 2010-24. Dell TechCenter Rockstar 2014-15. Microsoft MVP 2014-16. Veeam Vanguard 2015-23. Nutanix NTC 2014-20. Several certifications including: VCDX-DCV, VCP-DCV/DT/Cloud, VCAP-DCA/DCD/CIA/CID/DTA/DTD, MCSA, MCSE, MCITP, CCA, NPP.