Automatización del diseño multidimensional de almacenes de datos

Tesis

Estudiant:
Oscar Romero
Director:
Data de defensa:
09/02/2010
Departament:
Departament de Llenguatges i Sistemes Informàtics, Universitat Politècnica de Catalunya.

En esta tesis proponemos dos métodos para apoyar a la tarea de modelado del almacén de datos: MDBE (Multidimensional Design Based on Examples) y AMDO (Automating the Multidimensional Design from Ontologies). Las dos consideran los requerimientos y las fuentes de datos para llevar a cabo la tarea de modelado y además, fueron pensadas para superar las limitaciones de los enfoques actuales.

1. MDBE sigue un enfoque clásico, en el que los requerimientos de usuario son conocidos de antemano. Este método se beneficia del conocimiento capturado a las fuentes de datos, pero guía el proceso desde los requerimientos y, consecuentemente, es capaz de trabajar sobre fuentes de datos semánticamente pobres. Es decir, explotando el hecho que con unos requerimientos de calidad, podemos superar los inconvenientes de disponer de fuentes de datos que no capturan apropiadamente nuestro dominio de trabajo.
2. A diferencia de MDBE, AMDO asume un escenario donde se dispone de fuentes de datos semánticamente ricos. Por este motivo, dirige el proceso de modelado desde las fuentes de datos, y emplea los requerimientos para dar forma y adaptar los resultados generados a las necesidades del usuario. En este contexto, a diferencia del anterior, unas fuentes de datos semánticamente ricos amortiguan el hecho de no tener claros los requerimientos de usuario de antemano.

Hay que notar que nuestros métodos establecen un marco de trabajo combinado que se puede emplear para decidir, dado un escenario concreto, qué enfoque es más adecuado. Por ejemplo, no se puede seguir el mismo enfoque en un escenario donde los requerimientos son bien conocidos de antemano y en un escenario donde estos todavía no están claros (un caso recorriendo de esta situación es cuando el usuario no tiene claras las capacidades de análisis de su propio sistema). De hecho, disponer de unos buenos requerimientos de antemano amortigua la necesidad de disponer de fuentes de datos semánticamente ricos, mientras que a la inversa, si disponemos de fuentes de datos que capturan adecuadamente nuestro dominio de trabajo, los requerimientos no son necesarios de antemano. Por estos motivos, en esta tesis aportamos un marco de trabajo combinado que cubre todos los posibles escenarios que podemos encontrar durante la tarea de modelado del almacén de datos.