{"id":26351,"date":"2021-07-15T09:54:23","date_gmt":"2021-07-15T07:54:23","guid":{"rendered":"https:\/\/inlab.fib.upc.edu\/noticias\/integracion-de-datos-en-la-era-del-big-data\/2021\/"},"modified":"2021-07-15T09:54:23","modified_gmt":"2021-07-15T07:54:23","slug":"integracion-de-datos-en-la-era-del-big-data","status":"publish","type":"post","link":"https:\/\/inlab.fib.upc.edu\/es\/articles\/integracion-de-datos-en-la-era-del-big-data","title":{"rendered":"Integraci\u00f3n de datos en la era del Big Data"},"content":{"rendered":"<p class=\"rtejustify\">La integraci\u00f3n de datos es una \u00e1rea de investigaci\u00f3n con multitud de aplicaciones como por ejemplo en el mundo empresarial (p. ej., para dar acceso a sistemas legacy o a servicios externos), ciencia (p. ej., para combinar informaci\u00f3n de los centenares de bases de datos biom\u00e9dicas existentes), o bien en la Web (p. ej., para construir una plataforma de an\u00e1lisis y comparaci\u00f3n de precios de productos). Todos estos ejemplos requieren el desarrollo de un sistema capaz de modelar m\u00faltiples fuentes de datos aut\u00f3nomos, y proporcionar una interfaz de consultas uniforme sobre estas. Una soluci\u00f3n cl\u00e1sica a este problema es el uso de una base de datos federada c\u00f3mo se muestra en la siguiente figura. Este sistema est\u00e1 compuesto por diferentes m\u00f3dulos encargados de homogeneizar, a trav\u00e9s de los <em>wrappers<\/em>, los datos provenientes de una variedad de bases de datos. El usuario puede ejecutar consultas (p. ej., usando SQL) sobre un esquema global y el sistema, a trav\u00e9s de los <em>mediators<\/em>, se encarga autom\u00e1ticamente de <strong>reescribir<\/strong> esta en un conjunto de subconsultas sobre cada una de las bases de datos, y <strong>componer<\/strong> los resultados parciales para dar una visi\u00f3n integrada. Esto da al usuario la percepci\u00f3n de que interact\u00faa con una \u00fanica base de datos y no una federaci\u00f3n de estas.&nbsp;<\/p>\n<p>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;&nbsp;<img fetchpriority=\"high\" decoding=\"async\" class=\" size-full wp-image-1630\" alt=\"\" src=\"https:\/\/inlab.fib.upc.edu\/wp-content\/uploads\/2014\/07\/imagen1.png\" style=\"width: 332px; height: 400px;\" width=\"498\" height=\"600\" srcset=\"https:\/\/inlab.fib.upc.edu\/wp-content\/uploads\/2014\/07\/imagen1.png 498w, https:\/\/inlab.fib.upc.edu\/wp-content\/uploads\/2014\/07\/imagen1-249x300.png 249w, https:\/\/inlab.fib.upc.edu\/wp-content\/uploads\/2014\/07\/imagen1-370x446.png 370w\" sizes=\"(max-width: 498px) 100vw, 498px\" \/><\/p>\n<p>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; Arquitectura Mediator\/*Wrapper (fuente, <a href=\"https:\/\/cs.uwaterloo.ca\/~ddbook\/\">Principles of Distributed Database Systems<\/a>)<\/p>\n<p class=\"rtejustify\">A la pr\u00e1ctica pocos sistemas existen ofreciendo estas funcionalidades, y mayoritariamente est\u00e1n centrados en la mediaci\u00f3n de bases de datos relacionales. A pesar de esto, hoy en d\u00eda las organizaciones quieren analizar y enriquecer sus datos con fuentes de datos externos como por ejemplo estas que se pueden encontrar en portales de datos abiertos o descargables mediante APIs. Mi tesis doctoral, la cual recientemente ha recibido el <a href=\"https:\/\/www.sistedes.es\/premios\">premio SISTEDES<\/a>, parte de esta premisa y sigue una l\u00ednea de investigaci\u00f3n en el desarrollo de sistemas de integraci\u00f3n de datos flexibles y eficientes para gestionar los retos presentados cuando trabajamos con grandes vol\u00famenes de datos y con una gran variedad (Big Data).<\/p>\n<p class=\"rtejustify\">En este post resumir\u00e9 dos de las contribuciones resultantes de un trabajo llevado a cabo en cotutela entre UPC y ULB de 2015 a 2019, y dirigido por los profesores <a href=\"https:\/\/inlab.fib.upc.edu\/ca\/persones\/albert-abello\">Alberto Abell\u00f3<\/a> (UPC), <a href=\"https:\/\/inlab.fib.upc.edu\/ca\/persones\/oscar-romero\">Oscar Romero<\/a> (UPC) y Stijn Vansummeren (ULB).<\/p>\n<p>&nbsp;<\/p>\n<p><strong><span style=\"font-size:16px;\">Bolster: una arquitectura software de referencia para sistemas Big Data<\/span><\/strong><\/p>\n<p class=\"rtejustify\">Los cimientos para poder realizar integraci\u00f3n de datos son los <em>metadatos<\/em>. Estas son los datos que describen el sistema de integraci\u00f3n (el esquema global, el esquema de las fuentes, las relaciones entre estos, etc.). Los sistemas gestores de bases de datos relacionales incorporan la gesti\u00f3n de metadatos, pero esto no es cierto por el caso de los sistemas modernos de procesamiento de datos masivos. Estos se caracterizan para estar compuestos de componentes independientes (aquellos conocidos normalmente como NOSQL, p. ej., Hadoop, Spark, o MongoDB), que generalmente funcionan de forma aislada. La definici\u00f3n de una arquitectura de sistema que incluya estos componentes, y los procesos de extracci\u00f3n, transformaci\u00f3n y carga de datos es una tarea de responsabilidad de los administradores del sistema.<\/p>\n<p class=\"rtejustify\">Para facilitar a las organizaciones la tarea de adoptar este tipo de tecnolog\u00edas, introdujimos Bolster (ver la figura siguiente), una arquitectura software de referencia (SRA) para sistemas Big Data. Una SRA se puede considerar como un plano donde se describen un conjunto de componentes software y sus relaciones. Cada uno de estos componentes se puede instanciar con una herramienta del ecosistema Apache, o Amazon Web Services (AWS). Una de las contribuciones de Bolster es la incorporaci\u00f3n de una capa sem\u00e1ntica, la cual tiene el objetivo de almacenar y servir los metadatos necesarios para automatizar la comunicaci\u00f3n de datos entre componentes.<\/p>\n<p>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;&nbsp;<img decoding=\"async\" class=\" size-full wp-image-1627\" alt=\"\" src=\"https:\/\/inlab.fib.upc.edu\/wp-content\/uploads\/2014\/07\/imagen2.png\" style=\"width: 885px; height: 456px;\" width=\"885\" height=\"456\" srcset=\"https:\/\/inlab.fib.upc.edu\/wp-content\/uploads\/2014\/07\/imagen2.png 885w, https:\/\/inlab.fib.upc.edu\/wp-content\/uploads\/2014\/07\/imagen2-300x155.png 300w, https:\/\/inlab.fib.upc.edu\/wp-content\/uploads\/2014\/07\/imagen2-768x396.png 768w, https:\/\/inlab.fib.upc.edu\/wp-content\/uploads\/2014\/07\/imagen2-370x191.png 370w\" sizes=\"(max-width: 885px) 100vw, 885px\" \/><\/p>\n<p class=\"rtejustify\">Bolster se ha puesto en pr\u00e1ctica en m\u00faltiples proyectos en colaboraci\u00f3n con la industria. El ejemplo m\u00e1s relevante es el proyecto <a href=\"https:\/\/inlab.fib.upc.edu\/ca\/les-moires-dadqore-plataforma-tecnologica-intelligent-loptimitzacio-de-processos-data-driven\">Las Moiras de AdQore<\/a>, el cual permiti\u00f3 automatizar el protocolo de gobernanza de datos de AdQuiver.<\/p>\n<p>&nbsp;<\/p>\n<p><span style=\"font-size:16px;\"><strong>ODIN: extracci\u00f3n, integraci\u00f3n y consulta autom\u00e1tica de fuentes de datos heterog\u00e9neos<\/strong><\/span><\/p>\n<p class=\"rtejustify\">Una vez disponemos de una arquitectura desplegada, es necesario generar los metadatos necesarios para realizar la integraci\u00f3n de datos (aquella informaci\u00f3n que se guarda a la capa sem\u00e1ntica). En esta tesis nos centramos en entornos con centenares de fuentes de datos y sirviendo datos en formatos diferentes (p. ej., JSON, CSV, XML, etc.). En estas situaciones el mantenimiento manual de los metadatos es inviable y se tiene que realizar de forma autom\u00e1tica.<\/p>\n<p class=\"rtejustify\">El proyecto ODIN (On-Demand Data Integration) tiene como objetivo automatizar el proceso de extracci\u00f3n e integraci\u00f3n de metadatos para poder realizar consultas federadas. ODIN representa todos los metadatos como grafo para facilitar su interoperabilidad (p. ej., una consulta se representa como un subgraf de un grafo). El ciclo de vida de ODIN (ver la siguiente figura) est\u00e1 dividido en tres fases:<\/p>\n<ol>\n<li class=\"rtejustify\">Extracci\u00f3n del esquema de las fuentes de datos a grafo, donde se generan los <em>source graphs<\/em> que modelan la estructura f\u00edsica de las fuentes.<\/li>\n<li class=\"rtejustify\">Integraci\u00f3n de diferentes fuentes autom\u00e1tica, a partir de alineamientos descubiertos autom\u00e1ticamente con el apoyo de un experto en el dominio.<\/li>\n<li class=\"rtejustify\">Ejecuci\u00f3n de consultas federadas, donde se traduce una consulta sobre el grafo global a un conjunto de consultas sobre las fuentes y los resultados parciales se componen (usando operaciones de uni\u00f3n y <em>join<\/em>).<\/li>\n<\/ol>\n<p>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; <img decoding=\"async\" class=\" size-full wp-image-3167\" alt=\"\" src=\"https:\/\/inlab.fib.upc.edu\/wp-content\/uploads\/2021\/07\/imagen3.png\" style=\"width: 885px; height: 360px;\" width=\"885\" height=\"360\" srcset=\"https:\/\/inlab.fib.upc.edu\/wp-content\/uploads\/2021\/07\/imagen3.png 885w, https:\/\/inlab.fib.upc.edu\/wp-content\/uploads\/2021\/07\/imagen3-300x122.png 300w, https:\/\/inlab.fib.upc.edu\/wp-content\/uploads\/2021\/07\/imagen3-768x312.png 768w, https:\/\/inlab.fib.upc.edu\/wp-content\/uploads\/2021\/07\/imagen3-370x151.png 370w\" sizes=\"(max-width: 885px) 100vw, 885px\" \/>&nbsp;<\/p>\n<p class=\"rtejustify\">ODIN es un proyecto que va m\u00e1s all\u00e1 de mi tesis doctoral, y d\u00f3nde hay muchas oportunidades de investigaci\u00f3n. Un ejemplo es el proyecto <a href=\"https:\/\/inlab.fib.upc.edu\/es\/premis\/sergi-nadal-coordinador-de-un-proyecto-premiado-por-el-ayuntamiento-de-barcelona\">An Automatic Data Discovery Approach to Enhance Barcelona&#8217;s Data Ecosystem<\/a>, el cual se centra en la fase de descubrir relaciones (<em>alineamientos<\/em>) entre fuentes de datos enfocado en el ecosistema de datos de la ciudad de Barcelona, o bien el sistema <a href=\"https:\/\/www.essi.upc.edu\/~jflores\/nextiajd.html\">Nextia<sub>JD<\/sub><\/a> liderado por el estudiante de doctorado Javier Flores.<\/p>\n<p>&nbsp;<\/p>\n<p><strong><span style=\"font-size:16px;\">M\u00e1s informaci\u00f3n<\/span><\/strong><\/p>\n<p class=\"rtejustify\">La tesis completa est\u00e1 disponible en <a href=\"https:\/\/www.tdx.cat\/bitstream\/handle\/10803\/666947\/TSNF1de1.pdf\">tdx.cat<\/a>. En los siguientes art\u00edculos podr\u00e9is encontrar detalles sobre los temas explicados en este post:<\/p>\n<p class=\"rtejustify\">&#8211;  <a href=\"https:\/\/www.sciencedirect.com\/science\/article\/abs\/pii\/S0950584917304287\">S. Nadal, V. Herrero, O. Romero, A. Abell\u00f3, X. Franch, S. Vansummeren, D. Valerio: A software reference architecture for semantic-aware Big Data systems. Inf. Softw. Technol. 90: 75-92 (2017)<\/a><\/p>\n<p class=\"rtejustify\">&#8211;  <a href=\"http:\/\/ceur-ws.org\/Vol-2456\/paper48.pdf\">S. Nadal, K. Rabbani, O. Romero, S. Tadesse: ODIN: A Dataspace Management System. 18th International Semantic Web Conference (ISWC), 185-188 (2019)<\/a><\/p>\n<p class=\"rtejustify\">&#8211;  <a href=\"https:\/\/ieeexplore.ieee.org\/document\/9422168\">S. Nadal, A. Abell\u00f3, O. Romero, S. Vansummeren, P. Vassiliadis: Graph-driven Federated Data Management. IEEE Transactions on Knowledge and Data Engineering (2021)<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>La integraci\u00f3n de datos es una \u00e1rea de investigaci\u00f3n con multitud de aplicaciones como por ejemplo en el mundo empresarial (p. ej., para dar acceso a sistemas legacy o a servicios externos), ciencia (p. ej., para combinar informaci\u00f3n de los centenares de bases de datos biom\u00e9dicas existentes), o bien en la Web (p. ej., para [&hellip;]<\/p>\n","protected":false},"author":594,"featured_media":3166,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[457],"tags":[],"experteses":[],"class_list":["post-26351","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-articles"],"acf":[],"_links":{"self":[{"href":"https:\/\/inlab.fib.upc.edu\/es\/wp-json\/wp\/v2\/posts\/26351","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/inlab.fib.upc.edu\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/inlab.fib.upc.edu\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/inlab.fib.upc.edu\/es\/wp-json\/wp\/v2\/users\/594"}],"replies":[{"embeddable":true,"href":"https:\/\/inlab.fib.upc.edu\/es\/wp-json\/wp\/v2\/comments?post=26351"}],"version-history":[{"count":0,"href":"https:\/\/inlab.fib.upc.edu\/es\/wp-json\/wp\/v2\/posts\/26351\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/inlab.fib.upc.edu\/es\/wp-json\/wp\/v2\/media\/3166"}],"wp:attachment":[{"href":"https:\/\/inlab.fib.upc.edu\/es\/wp-json\/wp\/v2\/media?parent=26351"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/inlab.fib.upc.edu\/es\/wp-json\/wp\/v2\/categories?post=26351"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/inlab.fib.upc.edu\/es\/wp-json\/wp\/v2\/tags?post=26351"},{"taxonomy":"experteses","embeddable":true,"href":"https:\/\/inlab.fib.upc.edu\/es\/wp-json\/wp\/v2\/experteses?post=26351"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}