Data Warehouse vs Data Mart vs Lago de datos
Los términos lago de datos y almacén de datos a menudo se confunden y, a veces, se usan indistintamente. De hecho, aunque ambos se utilizan para almacenar grandes conjuntos de datos, los lagos de datos y los almacenes de datos son diferentes (y pueden ser complementarios).
- Lago de datos: es un gran depósito que puede contener cualquier tipo de datos: estructurados, semiestructurados o no estructurados.
- Almacén de datos: es un repositorio para datos estructurados y filtrados que ya han sido procesados para un propósito específico. En otras palabras, un almacén de datos está bien organizado y contiene datos bien definidos.
- Data mart: es un subconjunto de un almacén de datos, utilizado por una unidad de negocio específica para un propósito concreto, como una aplicación de gestión de la cadena de suministro.
James Dixon, el creador del término lago de datos, explica las diferencias mediante una analogía: “Si piensas en un data mart como una tienda de agua embotellada, depurada y estructurada para un consumo fácil, el lago de datos es un gran cuerpo de agua en un estado más natural. El contenido del lago de datos fluye desde una fuente para llenar el lago, y varios usuarios pueden examinar, sumergirse o tomar muestras”.
Un lago de datos puede usarse junto con un almacén de datos. Por ejemplo, puedes usar un lago de datos como repositorio de aterrizaje y preparación para un almacén de datos. Puedes usar el lago de datos para depurar o limpiar datos antes de enviarlos a un almacén de datos u otras estructuras.
Los lagos de datos que no están depurados corren el riesgo de convertirse en “pantanos de datos” sin gobernanza ni decisiones de calidad aplicadas, disminuyendo radicalmente el valor de recopilar datos al mezclar datos de calidad variable de una manera que dificulta confiar en la validez de las decisiones tomadas a partir de los datos recopilados.
El siguiente diagrama representa una pila tecnológica típica de un lago de datos. El lago de datos incluye almacenamiento y recursos de cómputo escalables; herramientas de procesamiento de datos para la gestión; herramientas de análisis e informes para científicos de datos, usuarios empresariales y personal técnico; y sistemas comunes de gobernanza, seguridad y operaciones.
Puedes implementar un lago de datos en un centro de datos empresarial o en la nube. Muchos de los primeros adoptantes implementaron lagos de datos en las instalaciones. A medida que los lagos de datos se vuelven más comunes, muchas empresas buscan lagos de datos en la nube para acelerar el tiempo de obtención de valor, reducir el costo total de propiedad y mejorar la agilidad empresarial.
Los lagos de datos locales requieren mucha inversión CAPEX y OPEX
Puedes implementar un lago de datos en un centro de datos empresarial utilizando servidores comunes y almacenamiento local (interno). Hoy en día, la mayoría de los lagos de datos locales utilizan una versión comercial o de código abierto de Hadoop, un popular marco de computación de alto rendimiento, como plataforma de datos. (En la encuesta de TDWI, el 53% de los encuestados usan Hadoop como su plataforma de datos, mientras que solo el 6% usa un sistema de gestión de bases de datos relacional).
Puedes combinar cientos o miles de servidores para crear un clúster Hadoop escalable y resistente, capaz de almacenar y procesar grandes conjuntos de datos. El siguiente diagrama muestra una pila tecnológica para un lago de datos local en Apache Hadoop.
La pila tecnológica incluye:
-
Hadoop MapReduce:
Un marco de software para escribir fácilmente aplicaciones que procesan grandes cantidades de datos en paralelo en grandes clústeres de hardware común de manera confiable y tolerante a fallos.
-
Hadoop YARN:
Un marco para la programación de trabajos y la gestión de recursos del clúster.
-
Hadoop Distributed File System (HDFS):
Un sistema de archivos de alto rendimiento diseñado específicamente para ejecutarse en servidores de bajo costo, con discos internos económicos.
Los lagos de datos locales ofrecen alto rendimiento y seguridad, pero son notoriamente costosos y complicados de implementar, administrar, mantener y escalar. Las desventajas de un lago de datos local incluyen:
Instalación prolongada
Construir tu propio lago de datos requiere tiempo, esfuerzo y dinero significativos. Debes diseñar y arquitectar el sistema; definir e implementar sistemas y prácticas de seguridad y administración; adquirir, instalar y probar la infraestructura de cómputo, almacenamiento y red; e identificar, instalar y configurar todos los componentes de software. Por lo general, toma meses (a menudo más de un año) poner en producción un lago de datos local.
Alto CAPEX
Grandes inversiones iniciales en equipos conducen a modelos de negocio desequilibrados con bajos retornos y largos períodos de recuperación. Los servidores, discos e infraestructura de red están sobredimensionados para satisfacer demandas máximas y requisitos futuros, por lo que siempre pagas por recursos inactivos y capacidad no utilizada.
Alto OPEX
Gastos recurrentes de energía, refrigeración y espacio en rack; cuotas mensuales de mantenimiento de hardware y soporte de software; y costos continuos de administración de hardware, todo ello conduce a altos gastos operativos.
Alto riesgo
Garantizar la continuidad del negocio (replicar datos en vivo a un centro de datos secundario) es una propuesta costosa para la mayoría de las empresas. Muchas empresas respaldan datos en cinta o disco. En caso de catástrofe, puede llevar días o incluso semanas reconstruir sistemas y restaurar operaciones.
Administración de sistemas compleja
Operar un lago de datos local es una tarea que consume muchos recursos y desvía personal de TI valioso (y costoso) de actividades más estratégicas.
Los lagos de datos en la nube eliminan el costo y la complejidad del equipo
Puedes implementar un lago de datos en la nube pública para evitar gastos y complicaciones de equipos y acelerar iniciativas de big data. Las ventajas generales de un lago de datos en la nube incluyen:
Rápido tiempo de obtención de valor
Puedes reducir los tiempos de implementación de meses a semanas al eliminar el diseño de infraestructura y las tareas de adquisición, instalación y puesta en marcha de hardware.
Sin CAPEX
Puedes evitar inversiones iniciales, alinear mejor los gastos con los requisitos empresariales y liberar presupuesto de capital para otros programas.
Sin gastos operativos de equipos
Puedes eliminar los gastos operativos de equipos (energía, refrigeración, bienes raíces), cuotas anuales de mantenimiento de hardware y costos recurrentes de administración de sistemas.
Escalabilidad instantánea e infinita
Puedes agregar capacidad de cómputo y almacenamiento bajo demanda para satisfacer rápidamente los requisitos empresariales y mejorar la satisfacción del cliente (responder rápidamente a las necesidades del negocio).
Escalado independiente
A diferencia de una implementación local de Hadoop que depende de servidores con almacenamiento interno, con una implementación en la nube puedes escalar la capacidad de cómputo y almacenamiento de forma independiente para optimizar costos y aprovechar al máximo los recursos.
Menor riesgo
Puedes replicar datos entre regiones para mejorar la resiliencia y garantizar la disponibilidad continua en caso de catástrofe.
Operaciones simplificadas
Puedes liberar al personal de TI para que se enfoque en tareas estratégicas para el negocio (el proveedor de la nube gestiona la infraestructura física).
Los servicios de almacenamiento en la nube de primera generación son demasiado costosos y complejos para lagos de datos
En comparación con un lago de datos local, un lago de datos en la nube es mucho más fácil y económico de implementar, escalar y operar. Dicho esto, los servicios de almacenamiento de objetos en la nube de primera generación como AWS S3, Microsoft Azure Blob Storage y Google Cloud Platform Storage son inherentemente costosos (en muchos casos tan caros como las soluciones locales) y complicados. Muchas empresas buscan servicios de almacenamiento más simples y asequibles para iniciativas de lagos de datos. Las limitaciones de los servicios de almacenamiento de objetos en la nube de primera generación incluyen:
Servicios de niveles costosos y confusos
Los proveedores de la nube tradicionales venden varios tipos (niveles) de servicios de almacenamiento. Cada nivel está destinado a un propósito distinto, por ejemplo, almacenamiento primario para datos activos, archivo activo para recuperación ante desastres o archivo inactivo para retención de datos a largo plazo. Cada uno tiene características únicas de rendimiento y resiliencia, SLA y precios. Las estructuras de tarifas complicadas con múltiples variables dificultan tomar decisiones informadas, prever costos y administrar presupuestos.
Dependencia del proveedor
Cada proveedor admite una API única. Cambiar de servicio es costoso y requiere mucho tiempo: debes reescribir o reemplazar tus herramientas y aplicaciones de gestión de almacenamiento existentes. Peor aún, los proveedores tradicionales cobran tarifas excesivas por la transferencia de datos (egreso) para mover datos fuera de sus nubes, lo que hace costoso cambiar de proveedor o usar una combinación de proveedores.
Cuidado con los servicios de almacenamiento por niveles
Los proveedores de almacenamiento en la nube de primera generación ofrecen servicios de almacenamiento por niveles confusos. Cada nivel está destinado a un tipo específico de datos y tiene características de rendimiento, SLA y planes de precios distintos (con estructuras de tarifas complejas).
Aunque el portafolio de cada proveedor es ligeramente diferente, estos servicios por niveles generalmente están optimizados para tres clases distintas de datos.
Datos activos
Datos en vivo que son fácilmente accesibles por el sistema operativo, una aplicación o usuarios. Los datos activos se acceden con frecuencia y tienen requisitos estrictos de rendimiento de lectura/escritura.
Archivo activo
Datos que se acceden ocasionalmente y están disponibles instantáneamente en línea (no restaurados desde una fuente remota u offline). Ejemplos incluyen copias de seguridad para recuperación rápida ante desastres o archivos de video grandes que pueden ser accedidos ocasionalmente.
Archivo inactivo
Datos a los que se accede rara vez. Ejemplos incluyen datos mantenidos a largo plazo por cumplimiento normativo. Históricamente, los datos inactivos se archivan en cinta y se almacenan fuera del sitio.
Identificar la mejor clase de almacenamiento (y el mejor valor) para una aplicación particular puede ser un verdadero desafío con un proveedor de almacenamiento en la nube tradicional. Microsoft Azure, por ejemplo, ofrece cuatro opciones distintas de almacenamiento de objetos: General Purpose v1, General Purpose v2, Blob Storage y Premium Blob Storage. Cada opción tiene características únicas de precio y rendimiento. Y algunas (pero no todas) admiten tres niveles de almacenamiento distintos, con SLA y tarifas diferentes: almacenamiento activo (para datos accedidos con frecuencia), almacenamiento frío (para datos accedidos ocasionalmente) y almacenamiento de archivo (para datos accedidos rara vez). Con tantas opciones y variables de precios, es casi imposible tomar una decisión bien informada y presupuestar con precisión.
En IDrive® e2, creemos que el almacenamiento en la nube debe ser simple. A diferencia de los servicios de almacenamiento en la nube tradicionales con niveles confusos y esquemas de precios complicados, ofrecemos un solo producto, con precios predecibles, asequibles y directos, que satisface cualquier necesidad de almacenamiento en la nube. Puedes usar IDrive® e2 para cualquier clase de almacenamiento de datos: datos activos, archivo activo y archivo inactivo.
Almacenamiento en la nube activa IDrive® e2 para lagos de datos
El almacenamiento en la nube activa IDrive® e2 es extremadamente económico, rápido y confiable para cualquier propósito. A diferencia de los servicios de almacenamiento en la nube de primera generación con niveles confusos y esquemas de precios complejos, IDrive® e2 es fácil de entender y muy rentable de escalar. Es ideal para almacenar grandes volúmenes de datos sin procesar.
Las principales ventajas de IDrive® e2 para lagos de datos incluyen:
Precios competitivos
El almacenamiento en la nube activa IDrive® e2 cuesta solo $0.004/GB/mes. Compáralo con $0.023/GB/mes de Amazon S3 Standard, $0.026/GB/mes de Google Multi-Regional y $0.046/GB/mes de Azure RA-GRS Hot.
A diferencia de AWS, Microsoft Azure y Google Cloud Platform, no imponemos tarifas adicionales para recuperar datos del almacenamiento (tarifas de egreso). Tampoco cobramos tarifas adicionales por llamadas a la API.
Rendimiento superior
La arquitectura paralelizada de IDrive® e2 ofrece velocidades de lectura/escritura más rápidas que los servicios de almacenamiento en la nube de primera generación, con tiempos de respuesta significativamente mejores.
Durabilidad y protección de datos robustas
El almacenamiento en la nube activa IDrive® e2 está diseñado para ofrecer durabilidad, integridad y seguridad extremas. Una capacidad opcional de inmutabilidad de datos previene eliminaciones accidentales y errores administrativos; protege contra malware, errores y virus; y mejora el cumplimiento normativo.
Almacenamiento en la nube activa IDrive® e2 para lagos de datos Apache Hadoop
Si ejecutas tu lago de datos en Apache Hadoop, puedes usar el almacenamiento en la nube activa IDrive® e2 como una alternativa asequible a HDFS, como se muestra en el siguiente diagrama. IDrive® e2 es totalmente compatible con la API S3 de AWS. Puedes usar el conector Hadoop Amazon S3A, parte de la distribución de código abierto de Apache Hadoop, para integrar Amazon S3 y otros almacenamientos en la nube compatibles como IDrive® e2 en varios flujos de MapReduce.
Puedes usar el almacenamiento en la nube activa IDrive® e2 como parte de una implementación de lago de datos multicloud para mejorar la elección y evitar la dependencia del proveedor. Un enfoque multicloud te permite escalar los recursos de cómputo y almacenamiento del lago de datos de forma independiente, utilizando los mejores proveedores.
También puedes conectar tu nube privada directamente a IDrive® e2. A diferencia de los proveedores de almacenamiento en la nube de primera generación, con IDrive® e2 nunca pagas tarifas de transferencia de datos (egreso). Es decir, puedes mover datos libremente fuera de IDrive® e2.
Continuidad de negocio y recuperación ante desastres económica
IDrive® e2 está alojado en múltiples centros de datos distribuidos geográficamente para ofrecer resiliencia y alta disponibilidad. Puedes replicar datos entre regiones de IDrive® e2 para continuidad de negocio, recuperación ante desastres y protección de datos, como se muestra a continuación.
Por ejemplo, podrías replicar datos entre tres centros de datos (regiones) diferentes de IDrive® e2 usando:
- IDrive® e2 Centro de datos 1 para almacenamiento de datos activos (almacenamiento principal).
- IDrive® e2 Centro de datos 2 como archivo activo para copias de seguridad y recuperación (respaldo en caso de que el Centro de datos 1 no esté disponible).
- IDrive® e2 Centro de datos 3 como almacén de datos inmutables (para proteger los datos contra errores administrativos, eliminaciones accidentales y ransomware). Un objeto de datos inmutable no puede ser eliminado ni modificado por nadie, incluido IDrive® e2.