aproximadamente
Publicado el 17 de junio de 2020

¿Qué necesitas para trabajar como Site Reliability Engineer?

Escrito por Susana Morcuende
 ¿Qué necesitas para trabajar como Site Reliability Engineer?

La mítica rivalidad que existe entre los departamentos de Desarrollo y Operaciones en las empresas tecnológicas no es una historia de esta década. Ni siquiera de este siglo. Por eso, en 2003, Ben Treynor, vicepresidente de Ingeniería de Google, decidió poner a especialistas en programación a desarrollar tareas propias del área operacional. Nacía así el concepto de Site Reliability Engineering (Ingeniería de Confiabilidad de Sitios) y, con él, el puesto de Site Reliability Engineer (SRE), una figura cada vez más apreciada por las compañías que aspiran a innovar regularmente en sus productos, pero manteniendo a la vez un alto nivel de fiabilidad del servicio.El equipo de SRE viene a poner paz entre los y las profesionales de Desarrollo, que aspiran a lanzar más funcionalidades al mayor ritmo posible; y los y las integrantes del segmento de Operaciones, cuya obsesión es la estabilidad de los productos. Gracias a los y las SRE, cada división de ingeniería puede centrarse plenamente en sus objetivos:

  • Desarrollo: escribir código e innovar.
  • SRE: monitorizar el funcionamiento de los productos cara a la detección y solución temprana de cualquier error.
  • Operaciones: ocuparse de la configuración, el mantenimiento y la realización de tests periódicos.

¿Has pensado en trabajar como SRE? Se trata de un rol en ascenso que aúna lo mejor de dos mundos y que te permitirá aprender algo nuevo cada día. Descubre hasta dónde podrías llegar y qué formación y habilidades necesitas para conseguirlo.

¿Qué es un Site Reliability Engineer y qué funciones tiene?

El Site Reliability Engineer (SRE) es un puesto que reparte su tiempo entre el desarrollo de software para la mejora de la estabilidad y el rendimiento; y la monitorización y resolución de problemas, con el fin de asegurar tanto la disponibilidad del servicio como el crecimiento y la innovación empresarial.

Los y las especialistas en SRE se dedican a idear sistemas que presentan una alta tolerancia ante los fallos, utilizando estrategias como la degradación gradual (desactivación de algunos procesos para que el sistema siga funcionando, aun con incidencias); o la defensa en profundidad, que prevé vías para que los errores se corrijan por sí solos de manera automática.

¿En qué se diferencian SRE y DevOps?

El hecho de que el rol de Site Reliability Engineer se conciba como un puente entre Desarrollo y Operaciones induce a la confusión con el de ingeniero o ingeniera DevOps. La distinción más clara viene de la mano de Google, que apunta que:

  • Las funciones del DevOps son más genéricas y nacen de una cultura empresarial que confía en integrar las dos áreas de Operaciones o Desarrollo, pero sin una metodología que defina cómo hacerlo. Cada organización deberá estudiar sus códigos de funcionamiento para encontrar el protocolo más apropiado.
  • Las responsabilidades del SRE, en cambio, están muy definidas y han de ajustarse a lo expuesto en el libro Site Reliability Engineering – How Google Runs Production Systems, redactado por el equipo de SRE de Google.

Este volumen recoge conceptos básicos -según Google- para acotar y coordinar el trabajo de los SRE, como:

  • El Service Level Agreement (SLA), es decir, el porcentaje de disponibilidad mínimo que el sistema debe mantener para los usuarios finales.
  • El presupuesto de error (error budget), o porcentaje admisible de interrupciones que comprometan la disponibilidad del sistema en un periodo de tiempo determinado. Todos los experimentos que quiera llevar al cabo el equipo de Desarrollo deben quedar cubiertos por este presupuesto de error.

No obstante, hay que tener presente que la metodología de Google es… eso, muy Google. Y que, fuera de allí, no habrá dos SRE o dos DevOps iguales, pues otras compañías mezclan y modulan las tareas de estos dos perfiles en función de sus necesidades.

equipo-site-reliability-engineers

¿Cómo convertirte en Site Reliability Engineer?

Para trabajar como SRE, tu currículum debería integrar los siguientes vértices:

  • Formación en Ingeniería Informática o especializaciones universitarias similares.
  • Experiencia previa en las áreas de Sistemas y Desarrollo de Software. Quizás tu trayectoria sea más sólida en una que en la otra, pero es importante que poseas conocimientos de ambas.
  • Soft skills como dotes de comunicación (oral y escrita), capacidad de trabajo en equipo, mentalidad resolutiva para afrontar los problemas y disposición para el aprendizaje continuo.

Los y las profesionales del sector de la informática se enfrentan, en la actualidad, a multitud de retos, como el almacenamiento de datos en tiempos del big data, la transformación digital, el uso de software de código abierto o la renovación de estructuras legacy. En Site Reliability Engineering, el desafío es la automatización del trabajo más repetitivo y pesado (denominado toil, en jerga del equipo SRE de Google).

Asimismo, no hay que perder de vista que las labores de resolución de incidencias suelen absorber buena parte de la jornada laboral de los y las SRE. De hecho, según el 2019 SRE Report de Catchpoint, que realiza anualmente una encuesta para evaluar el estado de la profesión, el 49% de los y las ingenieras de confiabilidad del sitio indica haber tenido que enfrentarse a uno de estos problemas en la última semana. Y el 50% de la muestra afirma haber tenido que solventar cortes en el servicio de más de un día de duración en algún momento de su carrera.

¿Te identificas con esta descripción y no dudarías en emplearte a fondo para acabar con cualquier traicionero fallo de software? Entonces, trabajar como SRE es lo tuyo. ¡Vente a BETWEEN y sube con nosotros un escalón más en tu trayectoria profesional!

 

 

Etiquetas: Informática

Artículos Relacionados

El desafío del almacenamiento de datos en tiempos del big data

El volumen de datos que se mueve en el mundo bate récords día a día. El Complete Forecast Update, 2017–2022 de Cisco Systems prevé que en 2022 el tráfico web registrado en todo el ...

Topics: Informática

Chief Information Officer: retos y funciones del CIO en 2020

El perfil profesional de Chief Information Officer (CIO) no es nuevo. Tirando del hilo, sus precedentes se remontan a los tiempos del desarrollo de los primeros ordenadores, allá ...

Topics: Informática

Cómo abordar proyectos de machine learning con TensorFlow en Python

El furor que despierta el machine learning ha colocado a TensorFlow, el software de código abierto de Google para proyectos de aprendizaje automático, en la cresta de la ola, ...

Topics: Informática