Big Data Analytics Lab

Descripción 

Este proyecto se realiza con una multinacional con sede en Barcelona con el objetivo de poner en marcha una plataforma experimental de Big Data basada en herramientas Open Source para facilitar y agilizar los procesos de apoyo al análisis y procesamiento de los datos de cara a mejorar sus procesos de negocio.

El proyecto se focaliza en mejorar un caso de uso muy concreto, que sirve como punto de partida para definir e implementar una arquitectura de referencia.

En la definición de la arquitectura de referencia es donde se concretan los diferentes componentes tecnológicos. Estos componentes tecnológicos serán herramientas de Big Data, que hay que escoger cuidadosamente en función de la estructura de los datos y de las consultas que prevemos que se harán.

El proyecto se inicia con el estudio de los datos origen, que nos permite hacer una selección inicial de las herramientas de Big Data que nos serán más útiles. Una vez seleccionadas valoramos las distintas herramientas, entre las que se incluyen unos benchmarkings, para determinar la rapidez de cada solución en el caso escogido.

Posteriormente se crea una ontología de los datos para que los analistas de datos de la empresa, que necesitan matrices de datos para trabajar, puedan elegir las variables, ver las características, la distribución,.... y posteriormente aplicar las reglas de limpieza, de discretización y/o de transformación (Reglas tipo Map-Reduce) adecuadas.

InLab FIB ha constituido un equipo técnico de apoyo a los procesos analíticos y tecnológicos mencionados, formado por expertos en Big Data y minería de datos, que formarán al personal técnico de la compañía para garantizar la continuidad del servicio más allá de la duración del proyecto.

Periodo del proyecto 
Diciembre, 2014 - Diciembre, 2015
Beneficios para el cliente 

El trabajo conjunto con el cliente permite formar su equipo técnico, con un notable ahorro de tiempo en la preparación y procesamiento de los datos.

El cliente tiene acceso a expertos de primer nivel en tecnologías Big Data basadas en Open Source

Tecnología 
Ambari (Monitorització),
Cassandra (Data Lake),
Flume (Data Ingestion),
Gem (Data Analysis),
HBase (Data Lake),
HDFS (Data Lake),
Hive (Data Query),
Knox (Seguretat),
Mahout (Data Analysis),
Oozie (Scheduling),
Pig (Data Query),
SAS (Data Analysis),
Spark (Data Processing),
Sqoop (Data Ingestion),
Yarn (Data Processing),
R
Áreas de especialización aplicadas al proyecto 
Participantes del equipo inLab 

Segueix-nos a

Els nostres articles del bloc d'inLab FIB

         
         

inLab FIB incorpora esCert

Icona ESCERT

First LogoCSIRT Logo

inLab es miembro de

inLab és centre TECNIO

ACCIO