Big data: el reto del almacenamiento de datos | BETWEEN

Escrito por IT Solutions de BETWEEN | 20/05/20 7:17

El volumen de datos que se mueve en el mundo bate récords día a día. El Complete Forecast Update, 2017–2022 de Cisco Systems prevé que en 2022 el tráfico web registrado en todo el planeta alcanzará los 4,8 zetabytes anuales, lo que supone pasar de 122 exabytes mensuales en 2017 a 396 exabytes dentro de apenas dos años. No es de extrañar que, según subraya Statista, el valor de mercado del big data en el mundo vaya a multiplicarse por dos en tan solo siete años: de 55.000 millones de dólares en 2020 a 103.000 millones en 2027. Todo un desafío para las soluciones de almacenamiento de datos, que se ven obligadas a adaptarse a marchas forzadas para dar respuesta a la demanda de las organizaciones.

¿Qué necesidades de almacenamiento presenta el big data?

La tecnología de almacenamiento de datos para big data debe estar preparada no solo para albergar una gran cantidad de información, sino también para dar respuesta a necesidades como estas:

Ha de dimensionarse de acuerdo con las exigencias del presente, pero ser modulable respecto a lo que pueda suceder en el futuro, ante volúmenes de datos mayores y más heterogéneos.
Entendiendo como tal la compatibilidad con datos estructurados y no estructurados.
Debe ofrecer una respuesta rápida, con una muy baja latencia, ante cualquier solicitud.
A prueba de ciberamenazas, reales o potenciales.
Facilidad de acceso. En las grandes compañías, el big data ofrece beneficios transversales a departamentos muy diversos. Por ello, para sacarle partido es fundamental descentralizar los protocolos de consulta de la información y que estos puedan efectuarse mediante comandos sencillos.

Muchas organizaciones han encontrado una solución satisfactoria para todos estos requerimientos del big data con la implementación del almacenamiento de datos por niveles.

¿Qué es el almacenamiento por niveles?

El almacenamiento de datos por niveles se basa en segmentar la información de acuerdo con su importancia, de manera que los registros de mayor valor se colocan en emplazamientos más seguros, estables y con gran capacidad de procesamiento; y los de menor valor se confinan en capas de más difícil acceso y con menos prestaciones. Esto permite a las empresas ahorrar costes, ganar rentabilidad y optimizar los recursos informáticos disponibles en la gestión del big data.

Definir la estrategia de almacenamiento de datos es una de las competencias del Chief Information Officer (CIO). En líneas generales, los CIO que optan por el almacenamiento por niveles tienden a:

Combinar diferentes tipos de almacenamiento. Por ejemplo, la nube o servidores on-premise para datos vitales; y discos duros o memorias externas para los registros de menor utilidad.
Priorizar aquellos datos que se necesita consultar con frecuencia, trasladando al resto a los entornos de almacenamiento a largo plazo. De este modo, se libera espacio y se facilita la actividad de las unidades más eficientes.

Tecnología de almacenamiento de datos ante el reto del big data

Dependiendo de las características de cada compañía, los CIO pueden recurrir a distintas tecnologías de almacenamiento de datos que se amoldan a las exigencias del big data:

Data lakes o lagos de datos. La mejor opción para romper las estructuras de silos que impiden que la información llegue a todos los nodos de la organización. Son repositorios que admiten datos estructurados y no estructurados procedentes de fuentes muy diversas y en bruto, sin necesidad de tratamiento previo antes de su inclusión.
Edge computing. Ante la tendencia de reunir y explotar de manera centralizada los datos recogidos por millares de desperdigados sensores, el Internet de las Cosas abre la puerta al edge computing, es decir, a que el almacenamiento y el procesamiento de la información se lleve a cabo cerca del punto de recolección, reduciendo así la latencia en la toma de decisiones y evitando sobrecargar la nube.
Cloud híbrida. Se basa en aprovechar las ventajas de combinar el uso de una nube pública, como Amazon Web Services o Microsoft Azure, y el de una nube privada, con una configuración a medida para los miembros de la organización.
Apuesta por la contratación complementaria de servicios de almacenamiento de datos en la nube de varios proveedores.

El manejo de grandes volúmenes de datos en big data requiere, además, la utilización de entornos de trabajo que permitan gestionarlos, consultarlos y organizarlos. Uno de los más populares es Hadoop, un proyecto de código abierto que tiene en su Hadoop Distributed File System (HDFS) a un potente sistema de almacenamiento distribuido de archivos. HDFS divide la información que ha de guardar en bloques (normalmente de 128 o 256 MB cada uno) y los ubica en distintos nodos que conforman un clúster, replicándolos, a su vez, en varios de ellos para minimizar el riesgo de pérdidas.

Ver post completo