Almacenamiento de objetos en la nube para lagos de datos

Evite el costo y la complejidad del equipo local con un lago de datos en la nube

Crecimiento de la esfera global de datos

El crecimiento de los datos está en auge. Existe una variedad, volumen y velocidad cada vez mayor de datos generados por la creciente cantidad de dispositivos móviles, sensores inteligentes y puntos finales inteligentes. Según una previsión de IDC, la generación anual de datos globales crecerá de 33 zettabytes (ZB) en 2018 a 175 ZB en 2025 a medida que proliferan los dispositivos conectados y los sistemas inteligentes. (1 ZB = 1 billón de GB)

Estos datos sin procesar seleccionados o Big Data pueden proporcionar información valiosa sobre el comportamiento del cliente y las tendencias del mercado. Las industrias pueden utilizarlos para transformar la forma en que hacen negocios. Sin embargo, almacenar estos conjuntos de datos históricos masivos durante períodos prolongados utilizando soluciones de almacenamiento convencionales locales o servicios de almacenamiento en la nube de primera generación de AWS, Microsoft Azure o Google Cloud Platform es una propuesta costosa.

Pero todo esto está a punto de cambiar con la nueva generación de almacenamiento en la nube que ofrece precios por uso y simplicidad. Con Cloud Storage 2.0 puedes almacenar cualquier tipo de datos de manera rentable, para cualquier propósito y durante cualquier período de tiempo en el almacenamiento en la nube activa de IDrive^® e2. Ya no tienes que tomar decisiones difíciles sobre qué datos recopilar, dónde almacenarlos y cuánto tiempo conservarlos.

Esta nueva generación de almacenamiento en la nube es ideal para construir lagos de datos: vastos repositorios donde puedes recopilar grandes volúmenes de datos sin procesar, para cualquier propósito. Según una encuesta de TDWI a más de 250 profesionales de gestión de datos, casi la mitad de los encuestados dijeron que ya tienen un lago de datos en producción (23%) o planean tener uno en producción en los próximos 12 meses (24%).

VISIÓN GENERAL

¿Qué es un lago de datos?

Un lago de datos es un sistema empresarial para almacenar de forma segura diferentes tipos de datos en formato nativo. Incluye una amplia variedad de datos que no se encuentran en un almacén de datos estructurados convencional (por ejemplo, datos de sensores, datos de clics, datos de redes sociales, datos de ubicación, datos de registros de servidores y dispositivos de red), así como datos estructurados y semiestructurados tradicionales. Los lagos de datos eliminan los silos de información tradicionales al reunir todos los datos de una empresa en un solo repositorio para su análisis, sin las restricciones históricas de esquema o transformación de datos.

Los lagos de datos sientan las bases para análisis avanzados, aprendizaje automático y nuevas prácticas empresariales basadas en datos. Los científicos de datos, analistas de negocios y profesionales técnicos pueden ejecutar análisis utilizando herramientas comerciales o de código abierto de análisis, visualización e inteligencia empresarial de su elección. Existen diversas ofertas de proveedores que ayudan a las empresas a monetizar las inversiones en lagos de datos y transformar los datos en valor empresarial. Estas soluciones van desde herramientas de exploración de datos de autoservicio para usuarios empresariales hasta plataformas avanzadas de minería de datos para científicos de datos.

Un lago de datos en una implementación de Internet de las cosas incluye dispositivos de computación en el borde para procesar y analizar datos locales antes de enviarlos al lago de datos. Por ejemplo, los servidores de borde pueden realizar análisis en tiempo real, ejecutar lógica empresarial local y filtrar datos que no tienen valor histórico o global.

Data Warehouse vs Data Mart vs Lago de datos

Los términos lago de datos y almacén de datos a menudo se confunden y, a veces, se usan indistintamente. De hecho, aunque ambos se utilizan para almacenar grandes conjuntos de datos, los lagos de datos y los almacenes de datos son diferentes (y pueden ser complementarios).

Lago de datos: es un gran depósito que puede contener cualquier tipo de datos: estructurados, semiestructurados o no estructurados.
Almacén de datos: es un repositorio para datos estructurados y filtrados que ya han sido procesados para un propósito específico. En otras palabras, un almacén de datos está bien organizado y contiene datos bien definidos.
Data mart: es un subconjunto de un almacén de datos, utilizado por una unidad de negocio específica para un propósito concreto, como una aplicación de gestión de la cadena de suministro.

James Dixon, el creador del término lago de datos, explica las diferencias mediante una analogía: “Si piensas en un data mart como una tienda de agua embotellada, depurada y estructurada para un consumo fácil, el lago de datos es un gran cuerpo de agua en un estado más natural. El contenido del lago de datos fluye desde una fuente para llenar el lago, y varios usuarios pueden examinar, sumergirse o tomar muestras”.

Un lago de datos puede usarse junto con un almacén de datos. Por ejemplo, puedes usar un lago de datos como repositorio de aterrizaje y preparación para un almacén de datos. Puedes usar el lago de datos para depurar o limpiar datos antes de enviarlos a un almacén de datos u otras estructuras.

Los lagos de datos que no están depurados corren el riesgo de convertirse en “pantanos de datos” sin gobernanza ni decisiones de calidad aplicadas, disminuyendo radicalmente el valor de recopilar datos al mezclar datos de calidad variable de una manera que dificulta confiar en la validez de las decisiones tomadas a partir de los datos recopilados.

El siguiente diagrama representa una pila tecnológica típica de un lago de datos. El lago de datos incluye almacenamiento y recursos de cómputo escalables; herramientas de procesamiento de datos para la gestión; herramientas de análisis e informes para científicos de datos, usuarios empresariales y personal técnico; y sistemas comunes de gobernanza, seguridad y operaciones.

Puedes implementar un lago de datos en un centro de datos empresarial o en la nube. Muchos de los primeros adoptantes implementaron lagos de datos en las instalaciones. A medida que los lagos de datos se vuelven más comunes, muchas empresas buscan lagos de datos en la nube para acelerar el tiempo de obtención de valor, reducir el costo total de propiedad y mejorar la agilidad empresarial.

Los lagos de datos locales requieren mucha inversión CAPEX y OPEX

Puedes implementar un lago de datos en un centro de datos empresarial utilizando servidores comunes y almacenamiento local (interno). Hoy en día, la mayoría de los lagos de datos locales utilizan una versión comercial o de código abierto de Hadoop, un popular marco de computación de alto rendimiento, como plataforma de datos. (En la encuesta de TDWI, el 53% de los encuestados usan Hadoop como su plataforma de datos, mientras que solo el 6% usa un sistema de gestión de bases de datos relacional).

Puedes combinar cientos o miles de servidores para crear un clúster Hadoop escalable y resistente, capaz de almacenar y procesar grandes conjuntos de datos. El siguiente diagrama muestra una pila tecnológica para un lago de datos local en Apache Hadoop.

La pila tecnológica incluye:

Hadoop MapReduce: Un marco de software para escribir fácilmente aplicaciones que procesan grandes cantidades de datos en paralelo en grandes clústeres de hardware común de manera confiable y tolerante a fallos.
Hadoop YARN: Un marco para la programación de trabajos y la gestión de recursos del clúster.
Hadoop Distributed File System (HDFS): Un sistema de archivos de alto rendimiento diseñado específicamente para ejecutarse en servidores de bajo costo, con discos internos económicos.

Los lagos de datos locales ofrecen alto rendimiento y seguridad, pero son notoriamente costosos y complicados de implementar, administrar, mantener y escalar. Las desventajas de un lago de datos local incluyen:

Instalación prolongada

Construir tu propio lago de datos requiere tiempo, esfuerzo y dinero significativos. Debes diseñar y arquitectar el sistema; definir e implementar sistemas y prácticas de seguridad y administración; adquirir, instalar y probar la infraestructura de cómputo, almacenamiento y red; e identificar, instalar y configurar todos los componentes de software. Por lo general, toma meses (a menudo más de un año) poner en producción un lago de datos local.

Alto CAPEX

Grandes inversiones iniciales en equipos conducen a modelos de negocio desequilibrados con bajos retornos y largos períodos de recuperación. Los servidores, discos e infraestructura de red están sobredimensionados para satisfacer demandas máximas y requisitos futuros, por lo que siempre pagas por recursos inactivos y capacidad no utilizada.

Alto OPEX

Gastos recurrentes de energía, refrigeración y espacio en rack; cuotas mensuales de mantenimiento de hardware y soporte de software; y costos continuos de administración de hardware, todo ello conduce a altos gastos operativos.

Alto riesgo

Garantizar la continuidad del negocio (replicar datos en vivo a un centro de datos secundario) es una propuesta costosa para la mayoría de las empresas. Muchas empresas respaldan datos en cinta o disco. En caso de catástrofe, puede llevar días o incluso semanas reconstruir sistemas y restaurar operaciones.

Administración de sistemas compleja

Operar un lago de datos local es una tarea que consume muchos recursos y desvía personal de TI valioso (y costoso) de actividades más estratégicas.

Los lagos de datos en la nube eliminan el costo y la complejidad del equipo

Puedes implementar un lago de datos en la nube pública para evitar gastos y complicaciones de equipos y acelerar iniciativas de big data. Las ventajas generales de un lago de datos en la nube incluyen:

Rápido tiempo de obtención de valor

Puedes reducir los tiempos de implementación de meses a semanas al eliminar el diseño de infraestructura y las tareas de adquisición, instalación y puesta en marcha de hardware.

Sin CAPEX

Puedes evitar inversiones iniciales, alinear mejor los gastos con los requisitos empresariales y liberar presupuesto de capital para otros programas.

Sin gastos operativos de equipos

Puedes eliminar los gastos operativos de equipos (energía, refrigeración, bienes raíces), cuotas anuales de mantenimiento de hardware y costos recurrentes de administración de sistemas.

Escalabilidad instantánea e infinita

Puedes agregar capacidad de cómputo y almacenamiento bajo demanda para satisfacer rápidamente los requisitos empresariales y mejorar la satisfacción del cliente (responder rápidamente a las necesidades del negocio).

Escalado independiente

A diferencia de una implementación local de Hadoop que depende de servidores con almacenamiento interno, con una implementación en la nube puedes escalar la capacidad de cómputo y almacenamiento de forma independiente para optimizar costos y aprovechar al máximo los recursos.

Menor riesgo

Puedes replicar datos entre regiones para mejorar la resiliencia y garantizar la disponibilidad continua en caso de catástrofe.

Operaciones simplificadas

Puedes liberar al personal de TI para que se enfoque en tareas estratégicas para el negocio (el proveedor de la nube gestiona la infraestructura física).

Los servicios de almacenamiento en la nube de primera generación son demasiado costosos y complejos para lagos de datos

En comparación con un lago de datos local, un lago de datos en la nube es mucho más fácil y económico de implementar, escalar y operar. Dicho esto, los servicios de almacenamiento de objetos en la nube de primera generación como AWS S3, Microsoft Azure Blob Storage y Google Cloud Platform Storage son inherentemente costosos (en muchos casos tan caros como las soluciones locales) y complicados. Muchas empresas buscan servicios de almacenamiento más simples y asequibles para iniciativas de lagos de datos. Las limitaciones de los servicios de almacenamiento de objetos en la nube de primera generación incluyen:

Servicios de niveles costosos y confusos

Los proveedores de la nube tradicionales venden varios tipos (niveles) de servicios de almacenamiento. Cada nivel está destinado a un propósito distinto, por ejemplo, almacenamiento primario para datos activos, archivo activo para recuperación ante desastres o archivo inactivo para retención de datos a largo plazo. Cada uno tiene características únicas de rendimiento y resiliencia, SLA y precios. Las estructuras de tarifas complicadas con múltiples variables dificultan tomar decisiones informadas, prever costos y administrar presupuestos.

Dependencia del proveedor

Cada proveedor admite una API única. Cambiar de servicio es costoso y requiere mucho tiempo: debes reescribir o reemplazar tus herramientas y aplicaciones de gestión de almacenamiento existentes. Peor aún, los proveedores tradicionales cobran tarifas excesivas por la transferencia de datos (egreso) para mover datos fuera de sus nubes, lo que hace costoso cambiar de proveedor o usar una combinación de proveedores.

Cuidado con los servicios de almacenamiento por niveles

Los proveedores de almacenamiento en la nube de primera generación ofrecen servicios de almacenamiento por niveles confusos. Cada nivel está destinado a un tipo específico de datos y tiene características de rendimiento, SLA y planes de precios distintos (con estructuras de tarifas complejas).

Aunque el portafolio de cada proveedor es ligeramente diferente, estos servicios por niveles generalmente están optimizados para tres clases distintas de datos.

Datos activos

Datos en vivo que son fácilmente accesibles por el sistema operativo, una aplicación o usuarios. Los datos activos se acceden con frecuencia y tienen requisitos estrictos de rendimiento de lectura/escritura.

Archivo activo

Datos que se acceden ocasionalmente y están disponibles instantáneamente en línea (no restaurados desde una fuente remota u offline). Ejemplos incluyen copias de seguridad para recuperación rápida ante desastres o archivos de video grandes que pueden ser accedidos ocasionalmente.

Archivo inactivo

Datos a los que se accede rara vez. Ejemplos incluyen datos mantenidos a largo plazo por cumplimiento normativo. Históricamente, los datos inactivos se archivan en cinta y se almacenan fuera del sitio.

Identificar la mejor clase de almacenamiento (y el mejor valor) para una aplicación particular puede ser un verdadero desafío con un proveedor de almacenamiento en la nube tradicional. Microsoft Azure, por ejemplo, ofrece cuatro opciones distintas de almacenamiento de objetos: General Purpose v1, General Purpose v2, Blob Storage y Premium Blob Storage. Cada opción tiene características únicas de precio y rendimiento. Y algunas (pero no todas) admiten tres niveles de almacenamiento distintos, con SLA y tarifas diferentes: almacenamiento activo (para datos accedidos con frecuencia), almacenamiento frío (para datos accedidos ocasionalmente) y almacenamiento de archivo (para datos accedidos rara vez). Con tantas opciones y variables de precios, es casi imposible tomar una decisión bien informada y presupuestar con precisión.

En IDrive^® e2, creemos que el almacenamiento en la nube debe ser simple. A diferencia de los servicios de almacenamiento en la nube tradicionales con niveles confusos y esquemas de precios complicados, ofrecemos un solo producto, con precios predecibles, asequibles y directos, que satisface cualquier necesidad de almacenamiento en la nube. Puedes usar IDrive^® e2 para cualquier clase de almacenamiento de datos: datos activos, archivo activo y archivo inactivo.

Almacenamiento en la nube activa IDrive^® e2 para lagos de datos

El almacenamiento en la nube activa IDrive^® e2 es extremadamente económico, rápido y confiable para cualquier propósito. A diferencia de los servicios de almacenamiento en la nube de primera generación con niveles confusos y esquemas de precios complejos, IDrive^® e2 es fácil de entender y muy rentable de escalar. Es ideal para almacenar grandes volúmenes de datos sin procesar.

Las principales ventajas de IDrive^® e2 para lagos de datos incluyen:

Precios competitivos

El almacenamiento en la nube activa IDrive^® e2 cuesta solo $0.004/GB/mes. Compáralo con $0.023/GB/mes de Amazon S3 Standard, $0.026/GB/mes de Google Multi-Regional y $0.046/GB/mes de Azure RA-GRS Hot.

A diferencia de AWS, Microsoft Azure y Google Cloud Platform, no imponemos tarifas adicionales para recuperar datos del almacenamiento (tarifas de egreso). Tampoco cobramos tarifas adicionales por llamadas a la API.

Rendimiento superior

La arquitectura paralelizada de IDrive^® e2 ofrece velocidades de lectura/escritura más rápidas que los servicios de almacenamiento en la nube de primera generación, con tiempos de respuesta significativamente mejores.

Durabilidad y protección de datos robustas

El almacenamiento en la nube activa IDrive^® e2 está diseñado para ofrecer durabilidad, integridad y seguridad extremas. Una capacidad opcional de inmutabilidad de datos previene eliminaciones accidentales y errores administrativos; protege contra malware, errores y virus; y mejora el cumplimiento normativo.

Almacenamiento en la nube activa IDrive^® e2 para lagos de datos Apache Hadoop

Si ejecutas tu lago de datos en Apache Hadoop, puedes usar el almacenamiento en la nube activa IDrive^® e2 como una alternativa asequible a HDFS, como se muestra en el siguiente diagrama. IDrive^® e2 es totalmente compatible con la API S3 de AWS. Puedes usar el conector Hadoop Amazon S3A, parte de la distribución de código abierto de Apache Hadoop, para integrar Amazon S3 y otros almacenamientos en la nube compatibles como IDrive^® e2 en varios flujos de MapReduce.

Puedes usar el almacenamiento en la nube activa IDrive^® e2 como parte de una implementación de lago de datos multicloud para mejorar la elección y evitar la dependencia del proveedor. Un enfoque multicloud te permite escalar los recursos de cómputo y almacenamiento del lago de datos de forma independiente, utilizando los mejores proveedores.

También puedes conectar tu nube privada directamente a IDrive^® e2. A diferencia de los proveedores de almacenamiento en la nube de primera generación, con IDrive^® e2 nunca pagas tarifas de transferencia de datos (egreso). Es decir, puedes mover datos libremente fuera de IDrive^® e2.

Continuidad de negocio y recuperación ante desastres económica

IDrive^® e2 está alojado en múltiples centros de datos distribuidos geográficamente para ofrecer resiliencia y alta disponibilidad. Puedes replicar datos entre regiones de IDrive^® e2 para continuidad de negocio, recuperación ante desastres y protección de datos, como se muestra a continuación.

Por ejemplo, podrías replicar datos entre tres centros de datos (regiones) diferentes de IDrive^® e2 usando:

IDrive^® e2 Centro de datos 1 para almacenamiento de datos activos (almacenamiento principal).
IDrive^® e2 Centro de datos 2 como archivo activo para copias de seguridad y recuperación (respaldo en caso de que el Centro de datos 1 no esté disponible).
IDrive^® e2 Centro de datos 3 como almacén de datos inmutables (para proteger los datos contra errores administrativos, eliminaciones accidentales y ransomware). Un objeto de datos inmutable no puede ser eliminado ni modificado por nadie, incluido IDrive^® e2.

Habla con nuestro equipo de ventas

Ponte en contacto con nuestro equipo de ventas para conocer más sobre cotizaciones personalizadas, requisitos de migración o solicita una demostración antes de comenzar con IDrive^® e2.

Contactar ventas

Almacenamiento de objetos en la nube para lagos de datos

Crecimiento de la esfera global de datos

VISIÓN GENERAL

¿Qué es un lago de datos?

Data Warehouse vs Data Mart vs Lago de datos

Los lagos de datos locales requieren mucha inversión CAPEX y OPEX

Instalación prolongada

Alto CAPEX

Alto OPEX

Alto riesgo

Administración de sistemas compleja

Los lagos de datos en la nube eliminan el costo y la complejidad del equipo

Rápido tiempo de obtención de valor

Sin CAPEX

Sin gastos operativos de equipos

Escalabilidad instantánea e infinita

Escalado independiente

Menor riesgo

Operaciones simplificadas

Los servicios de almacenamiento en la nube de primera generación son demasiado costosos y complejos para lagos de datos

Servicios de niveles costosos y confusos

Dependencia del proveedor

Cuidado con los servicios de almacenamiento por niveles

Datos activos

Archivo activo

Archivo inactivo

Almacenamiento en la nube activa IDrive^® e2 para lagos de datos

Precios competitivos

Rendimiento superior

Durabilidad y protección de datos robustas

Almacenamiento en la nube activa IDrive^® e2 para lagos de datos Apache Hadoop

Continuidad de negocio y recuperación ante desastres económica

Habla con nuestro equipo de ventas

E2-logo

Soluciones

Comenzar

Servicios

Almacenamiento de objetos en la nube para lagos de datos

Crecimiento de la esfera global de datos

VISIÓN GENERAL

¿Qué es un lago de datos?

Data Warehouse vs Data Mart vs Lago de datos

Los lagos de datos locales requieren mucha inversión CAPEX y OPEX

Instalación prolongada

Alto CAPEX

Alto OPEX

Alto riesgo

Administración de sistemas compleja

Los lagos de datos en la nube eliminan el costo y la complejidad del equipo

Rápido tiempo de obtención de valor

Sin CAPEX

Sin gastos operativos de equipos

Escalabilidad instantánea e infinita

Escalado independiente

Menor riesgo

Operaciones simplificadas

Los servicios de almacenamiento en la nube de primera generación son demasiado costosos y complejos para lagos de datos

Servicios de niveles costosos y confusos

Dependencia del proveedor

Cuidado con los servicios de almacenamiento por niveles

Datos activos

Archivo activo

Archivo inactivo

Almacenamiento en la nube activa IDrive® e2 para lagos de datos

Precios competitivos

Rendimiento superior

Durabilidad y protección de datos robustas

Almacenamiento en la nube activa IDrive® e2 para lagos de datos Apache Hadoop

Continuidad de negocio y recuperación ante desastres económica

Habla con nuestro equipo de ventas

Almacenamiento en la nube activa IDrive^® e2 para lagos de datos

Almacenamiento en la nube activa IDrive^® e2 para lagos de datos Apache Hadoop