El volumen de datos que se mueve en el mundo bate récords día a día. El Complete Forecast Update, 2017–2022 de Cisco Systems prevé que en 2022 el tráfico web registrado en todo el planeta alcanzará los 4,8 zetabytes anuales, lo que supone pasar de 122 exabytes mensuales en 2017 a 396 exabytes dentro de apenas dos años. No es de extrañar que, según subraya Statista, el valor de mercado del big data en el mundo vaya a multiplicarse por dos en tan solo siete años: de 55.000 millones de dólares en 2020 a 103.000 millones en 2027. Todo un desafío para las soluciones de almacenamiento de datos, que se ven obligadas a adaptarse a marchas forzadas para dar respuesta a la demanda de las organizaciones.
La tecnología de almacenamiento de datos para big data debe estar preparada no solo para albergar una gran cantidad de información, sino también para dar respuesta a necesidades como estas:
Muchas organizaciones han encontrado una solución satisfactoria para todos estos requerimientos del big data con la implementación del almacenamiento de datos por niveles.
El almacenamiento de datos por niveles se basa en segmentar la información de acuerdo con su importancia, de manera que los registros de mayor valor se colocan en emplazamientos más seguros, estables y con gran capacidad de procesamiento; y los de menor valor se confinan en capas de más difícil acceso y con menos prestaciones. Esto permite a las empresas ahorrar costes, ganar rentabilidad y optimizar los recursos informáticos disponibles en la gestión del big data.
Definir la estrategia de almacenamiento de datos es una de las competencias del Chief Information Officer (CIO). En líneas generales, los CIO que optan por el almacenamiento por niveles tienden a:
Dependiendo de las características de cada compañía, los CIO pueden recurrir a distintas tecnologías de almacenamiento de datos que se amoldan a las exigencias del big data:
El manejo de grandes volúmenes de datos en big data requiere, además, la utilización de entornos de trabajo que permitan gestionarlos, consultarlos y organizarlos. Uno de los más populares es Hadoop, un proyecto de código abierto que tiene en su Hadoop Distributed File System (HDFS) a un potente sistema de almacenamiento distribuido de archivos. HDFS divide la información que ha de guardar en bloques (normalmente de 128 o 256 MB cada uno) y los ubica en distintos nodos que conforman un clúster, replicándolos, a su vez, en varios de ellos para minimizar el riesgo de pérdidas.