aproximadament
Publicat el 20 de mayo de 2020

Big data: el repte de l'emmagatzematge de dades | BETWEEN

Escrit per Susana Morcuende
El volum de dades que es mou en el món bat rècords dia a dia. El Complete Forecast Update, 2017–2022 de Cisco Systems preveu que en 2022 el trànsit web registrat en tot el planeta arribarà als 4,8 zetabytes anuals, cosa que suposa passar de 122 exabytes mensuals en 2017 a 396 exabytes ten gairebé dos anys. No és d'estranyar que, segons subratlla Statista, el valor de mercat del big data en el món es multiplicara per dos en tan sols set anys: de 55.000 milions de dòlars en 2020 a 103.000 milions en 2027. Tot un desafiament per a les solucions d'emmagatzematge de dades, que es veuen obligades a adaptar-se a marxes forçades per a donar resposta a la demanda de les organitzacions.

Quines necessitats d'emmagatzematge presenta el big data?

La tecnologia d'emmagatzematge de dades per a big data ha d'estar preparada no sols per a albergar una gran quantitat d'informació, sinó també per a donar resposta a necessitats com aquestes:

  • Ha de dimensionar-se d'acord amb les exigències del present, però ser modulable respecte al que pugui succeir en el futur, davant volums de dades majors i més heterogenis.
  • Entenent com a tal la compatibilitat amb dades estructurades i no estructurats.
  • Ha d'oferir una resposta ràpida, amb una molt baixa latència, davant qualsevol sol·licitud.
  • A prova de ciberamenazas, reals o potencials.
  • Facilitat d'accés. En les grans companyies, el big data ofereix beneficis transversals a departaments molt diversos. Per això, per a treure-li partit és fonamental descentralitzar els protocols de consulta de la informació i que aquests puguin efectuar-se mitjançant comandos senzills.
     

Moltes organitzacions han trobat una solució satisfactoria per a tots aquests requeriments del big data amb la implementació de l'emmagatzematge de dades per nivells

Què és l'emmagatzematge per nivells?

L'emmagatzematge de dades per nivells es basa en segmentar la informació d'acord amb la seva importància, de manera que els registres de major valor es coloquen importancia, de manera que los registros de mayor valor es col·loquen en emplaçaments més segurs, estables i amb gran capacitat de processament; i els de menor valor es confinen en capes de més difícil accés i amb menys prestacions. Això permet a les empreses estalviar costos i optimitzar els recursos informàtics disponibles en la gestió del big data.

Definir l'estratègia d'emmagatzematge de dades és una de les competències del Chief Information Officer (CIO). En línies generals, els CIO que opten per l'emmagatzematge per nivells tendeixen a:

  • Combinar diferents tipus d'emmagatzematge. Per exemple, el núvol o servidors on-premise per a dades vitals; i discos durs o memòries externes per als registres de menor utilitat.
  • Prioritzar aquelles dades que es necessita consultar amb freqüència, traslladant a la resta als entorns d'emmagatzematge a llarg termini. D'aquesta manera, s'allibera espai i es facilita l'activitat de les unitats més eficients.

centro-almacenamiento-datos

Tecnologia d'emmagatzematge de dades davant el repte del big data

Depenent de les característiques de cada companyia, els CIO poden recórrer a diferents tecnologies d'emmagatzematge de dades que s'emmotllen a les exigències del big data:

  • Data lakes o llacs de dades. La millor opció per trencar les estructures de sitges que impedeixen que la informació arribi a tots els nodes de l'organització. Són repositoris que admeten dades estructurades i no estructurats procedents de fonts molt diverses i en brut, sense necessitat de tractament previ abans de la seva inclusió.
  • Edge computing. Davant la tendència de reunir i explotar de manera centralitzada les dades recollides per milers d'escampats sensors, la Internet de les Coses obre la porta al edge computing, és a dir, al fet que l'emmagatzematge i el processament de la informació es dugui a terme prop del punt de recol·lecció, reduint així la latència en la presa de decisions i evitant sobrecarregar el núvol.
  • Cloud híbrida. Es basa a aprofitar els avantatges de combinar l'ús d'un núvol públic, com Amazon Web Services o Microsoft Azure, i el d'un núvol privat, amb una configuració a mesura per als membres de l'organització.
  • Aposta per la contractació complementària de serveis d'emmagatzematge de dades en el núvol de diversos proveïdors.

El maneig de grans volums de dades en big data requereix, a més, la utilització d'entorns de treball que permetin gestionar-los, consultar-los i organitzar-los. Un dels més populars és Hadoop, un projecte de de codi obert que té en el seu Hadoop Distributed File System (HDFS) a un potent sistema d'emmagatzematge distribuït d'arxius. HDFS divideix la informació que ha de guardar en blocs (normalment de 128 o 256 MB cadascun) i els situa en diferents nodes que conformen un clúster, replicant-los, al seu torn, en diversos d'ells per a minimitzar el risc de pèrdues.

 

 

Etiquetes: Informática

Articles Relacionats

Què és un sandbox i per a què serveix | BETWEEN

Si no fos pel sandboxing, fer una cosa tan senzilla com llegir un pdf, descarregar un arxiu adjunt o navegar per Internet seria tan perillós com travessar un camp minat. Un pas en ...

( de lectura )

Topics: Informática

Val la pena especialitzar-se per a ser desenvolupador WordPress en 2020?

Entra al teu navegador i visita una pàgina d'Internet QUALSEVOL. Amb quin CMS (Content Management System) apostaries que està feta? En BETWEEN et Donem 01:00 truc: respon ...

( de lectura )

Topics: Informática

Serverless: què és i quins avantatges té | BETWEEN

L'arquitectura Serverless, basada en l'execució d'aplicacions i processos en el núvol, ha arribat per a quedar-se. L'últim informe The State of Securing Workloads de Alcide ha ...

( de lectura )

Topics: Informática