Don't you want to read? Try listening to the article in audio mode 🎧
En una época en la que las decisiones de las empresas son cada vez más Data Driven, y por tanto guiadas por datos, se hace imprescindible disponer de una o varias fuentes de información que puedan ser utilizadas para implementar estrategias y procesos de negocio capaces de maximizar la productividad y el ROI (Return on Investment). Los Data Warehouse cumplen con esta necesidad al proporcionar una base sobre la que operar de manera más efectiva a través de herramientas de Business Intelligence. Vamos entonces a analizar este tipo particular de sistemas y tratar de entender por qué son ventajosos incluso cuando hay que administrar grandes cantidades de datos.

Almacén de datos: qué es

En el contexto del Data Management, los Data Warehouse son sistemas que soportan Business Intelligence permitiendo realizar procedimientos de análisis en profundidad y afrontar procesos de Decision Making basados en datos. La información contenida en ellos puede llegar de diferentes fuentes, por lo que los Data Warehouse suelen presentar datos históricos, datos derivados de la actividad de la empresa (o datos operativos), datos tomados de fuentes externas, datos generados por el funcionamiento de las aplicaciones, archivos de registro y más, todo ello concentrado en una colección centralizada. De todas formas, estos sistemas no fueron diseñados para el procesamiento (por lo que no deben confundirse con bases de datos) sino para ofrecer respuestas a consultas, o sea query. Por eso, cuando hablamos de Data Warehouse también nos referimos a bases de datos accesibles en modalidad de sola lectura. Desde el punto de vista de la composición no se presentan como estructuras monolíticas e incluyen algunos elementos necesarios para su funcionamiento, tales como:
  • un RDBMS (Sistema de gestión de bases de datos relacionales) con el que gestionar los procesos de almacenamiento y consulta de datos;
  • Herramienta ELT (Extract, Load, Transform) con la que extraer, cargar y transformar datos en preparación para análisis;
  • Herramientas de Data Mining que permiten y facilitan la extracción de datos;
  • aplicaciones para Análisis Data Analysis;
  • herramientas para producir informes;
  • plataformas de presentación de datos.
Con el avance de las tecnologías de Inteligencia Artificial, y la creciente disponibilidad de Big Data, también han adquirido especial importancia los algoritmos de entrenamiento de modelos de Machine Learning para el análisis, así como herramientas capaces de proporcionar diferentes representaciones gráficas de los datos generados en base a diferentes criterios de análisis. William H. Inmon, considerado el padre del Data Warehouse y uno entre los principales expertos mundiales en el campo de Data Warehouse Design, argumenta que estos sistemas deben ser al mismo tiempo:
  • object oriented: es decir, que permitan analizar datos sobre la base de temas específicos;
  • no volátiles, por lo tanto capaces de garantizar la estabilidad y la inmodificabilidad de los datos;
  • integrados: es decir, diseñados de forma tal que generen consistencia a pesar de los diferentes tipos de datos manejados y sus múltiples fuentes;
  • variables en el tiempo, permitiendo de esta manera la identificación de las actualizaciones que han afectado los datos durante su historia.
Está claro por lo tanto cómo los Data Warehouse pueden ser útiles tanto para almacenar datos como para mejorarlos.

Ejemplos de arquitectura de un Data Warehouse

No existe una arquitectura única para Data Warehouse sino diferentes variantes desarrolladas de acuerdo a las necesidades de la empresa o cualquier otra realidad que desee explotar estos sistemas particulares para la recolección y análisis de datos. Sin embargo, es posible describir algunas arquitecturas de uso común:

Sandbox

Es una arquitectura basada en la creación de áreas privadas que garantizan un alto nivel de protección y seguridad de los datos. Gracias a ellas, la información almacenada puede ser explorada más rápidamente por su vínculo en satisfacer la obligación de cumplir con los protocolos del Data Warehouse o con sus reglas formales.

Arquitectura simple

Diferentemente de lo que ocurre con el Sandbox, proporciona un único repository central en el que fluyen todos los datos, independientemente de su tipo (datos brutos, metadatos, resúmenes...) y su fuente. También se otorga acceso a todos los usuarios que, entre otros fines, pueden utilizar los datos para data mining, el análisis y la elaboración de informes.

Arquitectura simple con área de preparación

En este caso, los datos se archivan a través del Data Warehouse tan solo después de haber sido seleccionados, eliminando la información no relevante y datos preprocesados. De ahí la necesidad de definir un área de gestión temporal para la preparación de datos antes de su inserción en el sistema. En alternativa a esta última aún es posible depurar y procesar la información durante la fase de programación.

Hub y spoke

Una arquitectura caracterizada por la presencia de un Data Mart, una base de datos estructurada que contiene un subconjunto de datos sobre un tema específico. Generalmente, un Data Mart está representado por la sección de un Data Warehouse y se utiliza para necesidades específicas, como la necesidad de administrar los datos de una sola división de la empresa (marketing, ventas, administración ...). El Data Mart actúa como un nivel intermedio entre el repository y los usuarios. Por lo tanto, los datos fluyen sólo cuando están listos para usarse. Claramente, se pueden asociar múltiples Data Marts con un único sistema.

¿Cómo se alimenta un Data Warehouse?

¿De dónde vienen los datos que se almacenan a través de los Data Warehouse? Generalmente es posible distinguir las fuentes utilizadas entre internas y externas. Tomando como ejemplo la realidad de una empresa estructurada, las fuentes internas de datos son por ejemplo bases de datos, CMS (Content Management System) utilizado para la gestión de contenidos, ERP (Enterprise Resource Planning) a los que se hace referencia para funciones corporativas y procesos de negocio, así como CRM (Customer Relationship Management) para gestionar las relaciones con los clientes. Del mismo modo, los mensajes de correo electrónico y cualquier tipo de archivo producido durante el funcionamiento de una organización también pueden ser considerados datos internos. Por otro lado, se consideran servicios externalizados fuentes de datos externas, como las que se prestan a través de las infraestructuras Cloud, pero también plataformas de terceros como redes sociales y webs de proveedores. En la misma categoría es posible incluir todas las aplicaciones externas con las que la empresa debe actuar para su trabajo. Piénsese por ejemplo en las agencias de actividad financiera que a través de servicios Web conectan sus CMR con los de la entidad de crédito con la que operan.

Business Intelligence y Data Warehouse

Los Data Warehouse pueden desempeñar un papel importante en el soporte de Business Intelligence porque ayudan a tomar decisiones racionales basadas en datos. De hecho, representan una fuente de información histórica y operativa que, cuando se utiliza para el análisis, permite identificar tendencias, anticipar cambios en el mercado y adaptar estrategias, presupuestos e inversiones con base en evaluaciones y pronósticos precisos. Para valorizar los datos que ponen a disposición los Data Warehouse, es necesario desarrollar habilidades analíticas, también a través de la realización de un curso de formación específico como el Business Data Analysis Master de Talent Garden. El máster se proyectó específicamente para adquirir habilidades en profundidad sobre el funcionamiento de los negocios Data Driven. Dedicado a Sales Managers, Gerentes de Marketing, Product Managers y Analistas con al menos 3 años de experiencia laboral, está articulado en cuatro fines de semana de sesiones de aprendizaje en línea en vivo y dos de lecciones en presencia en el Campus Calabiana de Talent Garden en Milán, citas en las que descubrir todos los aspectos del uso de datos en la definición de estrategias de negocio

Conclusiones

Los Data Warehouse son sistemas que le permiten asignar datos a través de diferentes fuentes con el fin de tener información útil para el Decision Making. Hay diferentes estructuras de Data Warehouse. Los profesionales del sector tienen por tanto la tarea de seleccionar y gestionar los más adecuados para su organización y soporte de Business Intelligence.
Artículo actualizado el: 09 agosto 2023
Talent Garden
Escrito por
Talent Garden, Digital Skills Academy

Seguir leyendo

¿Qué es un ecosistema de innovación?

Al igual que la flora, las ideas “crecen” en los campos adecuados. Por ello, crear una atmósfera que permita la ...

Visualización de Datos: Las herramientas que debes conocer

Una de las partes más importantes en el proceso de análisis de datos se produce cuando se quieren mostrar los ...

La ciencia dice que tienes que divertirte más en el trabajo

El trabajo es una de las actividades a las que más horas dedicamos a la semana y, por esta razón, disfrutar de nuestra ...

Data Scientist: quién es, qué hace y cuánto gana

Datos, datos y más datos. Vivimos en una sociedad donde los datos son parte cotidiana de nuestras acciones, tanto en el ...