Site Reliability Engineer

hace 7 horas


Tlalnepantla de Ba Brazil, México Redarbor A tiempo completo


¿Quienes somos?

Redarbor es la #1 compañía HR Tech en Latam.

Ayudamos a 50 millones de personas al mes a encontrar un trabajo y a más de empresas a reclutar y retener el mejor talento.

Somos líderes en Sites y App's de empleo Computrabajo (líder en Latinoamérica), Infojobs (#1 en Brasil), Catho (#2) y OCC (#1 México), Software de RRHH (Pandapé).

Redarbor en cifras:

  • 2013 fundada
  • +1.100 colaboradores
  • 13 oficinas
  • El grupo de sites de empleo líder en Latinoamérica y #2 en el mundo
  • El Software de RH (SaaS) líder en Latinoamérica con más de 8.000 productos activos.
  • Somos la mejor empresa para trabajar en España y reconocimiento especial 'Better for Business', según GPTW

¿A quien buscamos?

Buscamos un Site Reliability Engineer que asegure la confiabilidad, estabilidad, eficiencia y seguridad de las plataformas productivas de Redarbor mediante la implementación de prácticas SRE, automatización, observabilidad avanzada y mejora continua.

El SRE es responsable de operar y mejorar la infraestructura cloud y la plataforma de entrega, detectando y resolviendo problemas antes de que afecten a los usuarios, automatizando procesos críticos y trabajando de forma estrecha con el líder de Infraestructura para garantizar arquitecturas sólidas, resilientes y escalables.

¿Tu rol?

Confiabilidad y Operación:

  • Supervisar y mejorar la operación diaria de plataformas cloud y sistemas distribuidos.
  • Monitorear salud de servicios, detectar degradaciones y actuar preventivamente.
  • Ejecutar prácticas de SRE: error budgets, SLOs, SLIs, resiliencia, análisis post-mortem.
  • Optimizar performance mediante análisis de latencia, tráfico y métricas operativas.

Automatización y Eliminación de Toil:

  • Automatizar tareas repetitivas y flujos operativos mediante CI/CD y scripting.
  • Crear herramientas internas para que los equipos autogestionen despliegues y entornos.
  • Implementar pipelines confiables para despliegues, rollback y pruebas.

Infraestructura Cloud y Kubernetes

  • Operar infraestructura cloud: redes, compute, balanceo, almacenamiento y seguridad.
  • Administrar clústeres Kubernetes garantizando disponibilidad y eficiencia.
  • Desplegar, diagnosticar y optimizar servicios en el clúster usando buenas prácticas.
  • Gestionar actualizaciones, parches y ciclos de vida.

Observabilidad y Alertamiento

  • Diseñar y mantener sistemas de observabilidad: métricas, logs, trazabilidad distribuida.
  • Crear dashboards claros y definir alertas accionables.
  • Reducir ruido de alertas e incrementar la calidad del monitoreo.

Seguridad y Compliance

  • Implementar estándares de seguridad en infraestructura y servicios operativos.
  • Gestionar controles de acceso, segmentación y hardening.
  • Detectar anomalías y participar en respuesta a incidentes.
  • Asegurar cumplimiento de políticas internas y auditorías técnicas.

Soporte a Equipos Internos

  • Colaborar con equipos de ingeniería para mejorar confiabilidad y resolver incidentes.
  • Documentar y crear guías para facilitar autonomía de los equipos.
  • Participar en revisiones técnicas y apoyar en diseño de soluciones resilientes.

Colaboración y Mejora Continua

  • Trabajar estrechamente con el Líder de Infraestructura en proyectos estratégicos.
  • Evolucionar estándares y procesos de operación.
  • Proponer mejoras basadas en datos y métricas.
  • Mantener documentación actualizada y clara.

Eres la persona que buscamos si tienes:

  • Licenciatura/Ingeniería en Sistemas, Informática o afín.
  • Más de 3 años en roles de SRE, DevOps o ingeniería de plataformas.
  • Radicas en CDMX (trabajamos en modalidad híbrida).

Experiencia con:

  • Kubernetes y contenedores (operación y troubleshooting).
  • Cloud AWS u otra nube: redes, balanceo, seguridad y compute.
  • Redes, DNS y seguridad perimetral.
  • Observabilidad avanzada (End to End)
  • IaC: Terraform, Pulumi u otros.
  • Automatización, CI/CD y scripting
  • Diagnóstico de performance y fallas, incidentes de alta severidad y análisis post-mortem
  • Seguridad operativa y hardening.
  • Sistemas distribuidos.
  • Conocimientos avanzados de Linux.
  • Deseable conocimiento en Python, Go o TypeScript.


#LI-Onsite
  • Site Reliability Engineer

    hace 2 semanas


    Ciudad de México Atos A tiempo completo

    **Job Applicant Privacy Notice**:**Site Reliability Engineer**:- Publication Date: Jan 8, 2025- Ref. No: - Location: Mexico City, MX**_Site Reliability Engineer_**Certain Scripting experience in languages like Java or Python or Shell scripting.- +3 years of significant experience in working as Site Reliability Engineer- Strong in Terraform, Ansible, Packer,...


  • Tlalnepantla, México BairesDev A tiempo completo

    Site Reliability Engineer - Remote Work | REF#180173Join to apply for the Site Reliability Engineer - Remote Work | REF#180173 role at BairesDevSite Reliability Engineer - Remote Work | REF#1801736 months ago Be among the first 25 applicantsJoin to apply for the Site Reliability Engineer - Remote Work | REF#180173 role at BairesDevAt BairesDev, we've been...


  • Tlalnepantla, México BairesDev A tiempo completo

    Site Reliability Engineer - Remote Work | REF#180173Join to apply for the Site Reliability Engineer - Remote Work | REF#180173 role at BairesDevSite Reliability Engineer - Remote Work | REF#1801736 months ago Be among the first 25 applicantsJoin to apply for the Site Reliability Engineer - Remote Work | REF#180173 role at BairesDevAt BairesDev, we've been...


  • Ciudad de México Royal Caribbean Group A tiempo completo

    Join to apply for the Site Reliability Engineer role at Royal Caribbean Group 1 week ago Be among the first 25 applicants Join to apply for the Site Reliability Engineer role at Royal Caribbean Group Get AI-powered advice on this job and more exclusive features. Journey with us! Combine your career goals and sense of adventure by joining our incredible team...

  • Site Reliability Engineer

    hace 2 semanas


    Ciudad de México Zenta group A tiempo completo

    **Site Reliability Engineer | Presencial - CDMX****Resumen del Rol**:Como **Site Reliability Engineer (SRE)** en Zenta Group, serás el puente entre desarrollo y operaciones, asegurando que los servicios sean **escalables, confiables y resilientes**. Diseñarás e implementarás soluciones que mejoren la estabilidad y el rendimiento de la infraestructura,...

  • Site Reliability Engineer

    hace 2 semanas


    Ciudad de México Zenta group A tiempo completo

    **Site Reliability Engineer | Presencial - CDMX** **Resumen del Rol**: Como **Site Reliability Engineer (SRE)** en Zenta Group, serás el puente entre desarrollo y operaciones, asegurando que los servicios sean **escalables, confiables y resilientes**. Diseñarás e implementarás soluciones que mejoren la estabilidad y el rendimiento de la infraestructura,...


  • Estado de México BairesDev A tiempo completo

    Site Reliability Engineer - Remote Work | REF# Join to apply for the Site Reliability Engineer - Remote Work | REF# role at BairesDev Site Reliability Engineer - Remote Work | REF# 6 months ago Be among the first 25 applicants Join to apply for the Site Reliability Engineer - Remote Work | REF# role at BairesDev At BairesDev, we've been leading the way in...


  • Valle de Chalco Solidaridad, México Royal Caribbean International A tiempo completo

    A leading cruise line company is seeking a full-time Senior Site Reliability Engineer in Xico, Mexico, to enhance performance and reliability of their website. Candidates should have 6-10 years of relevant experience and proficiency in cloud platforms like AWS, along with strong problem-solving and communication skills. This role entails managing incidents,...

  • Site Reliability Engineer

    hace 4 semanas


    Ciudad de México Thomson Reuters A tiempo completo

    Are you passionate about the chance to bring your extensive technical experience to drive the Site Reliability Engineering team using industry best practices in a world class company? Thomson Reuters ONESOURCE Platform’s SRE team is looking for a Site Reliability Engineer who will provide hands-on technical skills and share industry best practices with...


  • Ciudad de México Thomson Reuters A tiempo completo

    Are you passionate about the chance to bring your extensive technical experience to drive the Site Reliability Engineering team using industry best practices in a world class company? Thomson Reuters ONESOURCE Platform’s SRE team is looking for a Site Reliability Engineer who will provide hands-on technical skills and share industry best practices with...