Big Data Analytics Lab

Descripció 

Aquest projecte es realitza amb una multinacional amb seu a Barcelona amb l'objectiu de posar en marxa una plataforma experimental de Big Data basada en eines Open Source per facilitar i agilitzar els processos de suport a l’anàlisi i processament de les dades de cara a millorar els seus processos de negoci.

El projecte es focalitza a millorar un cas d’ús molt concret, que serveix com a punt de partida per a definir i implementar una arquitectura de referència.

En la definició de l'arquitectura de referència és on es concreten els diferents components tecnològics. Aquests components tecnològics son eines de Big Data que cal escollir curosament en funció de l'estructura de les dades i de les consultes que preveiem que es faran.

El projecte s'inicia amb l'estudi de les dades origen, que ens permet fer una tria inicial de les eines de Big Data que ens seran més útils. Un cop triades es valoren les diferents eines, entre les que s'inclouen uns benchmarkings, per determinar la rapidesa de cada solució en el cas triat.

Posteriorment es crea una ontologia de les dades perquè els analistes de dades de l'empresa, que necessiten matrius de dades per treballar, puguin triar les variables, veure'n les característiques, la seva distribució,.... i posteriorment aplicar les regles de neteja, de discretització i/o de transformació (Regles tipus Map-Reduce) adients.

L'inLab FIB ha constituït un equip tècnic de suport als processos analítics i tecnològics esmentats, format per experts en Big Data i mineria de dades, que formaran al personal tècnic de la companyia per garantir la continuïtat del servei més enllà de la durada del projecte.

 

Període del projecte 
Desembre, 2014 - Desembre, 2015
Beneficis per al client 

El treball conjunt amb el client permet formar l’equip tècnic del nostre client, així com un notable estalvi de temps en la preparació i procés de les dades.

El client té accés a experts de primer nivell en tecnologies Big Data basades en Open Source

Tecnologia 
Ambari (Monitorització),
Cassandra (Data Lake),
Flume (Data Ingestion),
Gem (Data Analysis),
HBase (Data Lake),
HDFS (Data Lake),
Hive (Data Query),
Knox (Seguretat),
Mahout (Data Analysis),
Oozie (Scheduling),
Pig (Data Query),
SAS (Data Analysis),
Spark (Data Processing),
Sqoop (Data Ingestion),
Yarn (Data Processing),
R
Àrees d'expertesa aplicades al projecte 
Equip participant inLab 

Segueix-nos a

Els nostres articles del bloc d'inLab FIB

         
         

inLab FIB incorpora esCert

Icona ESCERT

inLab és membre de