DevOps / SRE - Prometheus, Grafana

hace 3 días


Ciudad de México, Ciudad de México Whitestack A tiempo completo
Resumen

Únete a nuestro equipo de Site Reliability Engineering como Site Reliability Engineer, donde implementamos y optimizamos herramientas que permiten un monitoreo automatizado y eficiente, proporcionando la información necesaria para corregir errores y asegurar en todo momento el correcto funcionamiento de nuestros productos en la nube en ambientes productivos.

Tendrás el desafío de garantizar la estabilidad, disponibilidad y desempeño de infraestructuras cloud productivas mediante el diseño e implementación de soluciones de monitoreo y visualización de indicadores de desempeño de las plataformas para garantizar la continuidad de la operación de grandes centros de datos, que soportan las aplicaciones e infraestructura críticas e ininterrumpidas que desplegamos.

Este rol está disponible para trabajo remoto desde las siguientes ubicaciones: México, Chile, Argentina, Colombia, Uruguay y Perú.

Responsabilidades
  • Diseñar, implementar y optimizar soluciones de monitoreo para infraestructuras cloud.
  • Definir, analizar e implementar dashboards para visualizar indicadores de desempeño críticos.
  • Garantizar el correcto funcionamiento de entornos cloud productivos, especialmente basados en tecnologías open-source como Kubernetes y OpenStack.
  • Atender y escalar incidencias críticas de plataforma al equipo de ingeniería senior o desarrollo de productos.
  • Supervisar y administrar entornos de desarrollo y testing.
  • Desarrollar, implementar y operar pipelines y herramientas de CI/CD para supervisión y actualización de imágenes en entornos productivos.
Requerimientos
  • Estudios en Ingeniería Informática, Ingeniería de Sistemas, Computación o carrera afín.
  • Al menos 3 años de experiencia en gestión, monitoreo y optimización de infraestructuras cloud especialmente en tecnologías como Kubernetes y OpenStack en entornos productivos.
  • Experiencia en el diseño e implementación de soluciones de monitoreo y en la gestión de incidentes críticos.
  • Uso y configuración de herramientas de monitoreo: Prometheus, Grafana, Elasticsearch, Kibana.
  • Experiencia en la administración y operación de clusters Kubernetes.
  • Automatización con Bash y/o Python.
  • Uso y administración de Linux (nivel intermedio)
  • Uso y creación de contenedores con Docker (nivel intermedio).
  • Inglés intermedio (lectura y escritura).
  • Autonomía y disciplina.
  • Capacidad de autoaprendizaje.
  • Pensamiento analítico y conceptual.
  • Orientación al cliente.
  • Habilidad para el trabajo en equipo.

Deseables:

  • Experiencia en cloud público (AWS, GCP, Azure) o privado (OpenStack).
  • Familiaridad con metodologías ágiles (Scrum, Kanban).
  • Capacidad de adaptar herramientas open-source.
  • Certificaciones en Linux, Kubernetes y/o OpenStack.
  • Contribución o integración de proyectos open-source.
  • Conocimientos básicos de redes (networking).

Sobre nosotros

En Whitestack somos líderes en Latinoamérica en el desarrollo de soluciones Telco Cloud, Open Networking e infraestructura digital híper-escalable. Trabajamos con tecnologías de código abierto como OpenStack, Kubernetes, Open Source Mano, Ceph, Prometheus, ONOS y muchas otras y colaboramos activamente con organizaciones globales como ETSI, la Open Infrastructure Foundation, el Telecom Infra Project y el Open Compute Project. Impulsamos la transformación digital en la región mediante estándares de clase mundial, grandes implementaciones para operadores y un fuerte compromiso con la innovación.

Además, somos un Great Place to Work, donde la colaboración y el desarrollo personal son parte esencial de nuestra cultura.

¿Por qué unirte a Whitestack?

 Proyección internacional: Participa en iniciativas globales y viaja para colaborar con equipos en distintos países.
 Equilibrio real: Diseñamos políticas que se ajustan a tu estilo de vida y te permiten trabajar con autonomía y propósito.
 Crecimiento claro: Te ofrecemos una línea de carrera sólida en liderazgo y tecnología.
 Salud primero: Seguro médico privado para ti y tu familia.
 Aprendizaje sin límites: Acceso a cursos, libros, materiales y reembolso de certificaciones.
 Idiomas para el mundo: Cursos de idiomas para que tu crecimiento no tenga fronteras.
 Tecnología en tus manos: Renovamos tu equipo cada 3 años... y es tuyo al finalizar el período
 Reconocimiento al esfuerzo: Bonos por rendimiento y éxito en proyectos.
 Tiempo para ti: 15 días de vacaciones mínimo, un día libre por tu cumpleaños y descansos extra antes de Fiestas Patrias, Navidad y Año Nuevo.
 Conexión y diversión: Presupuesto para actividades recreativas e integración.
 Cultura de innovación: Tus ideas importan. Promovemos la participación estratégica desde cualquier rol.

Conoce más sobre nuestras prestaciones aquí.


  • DevOps Engineer

    hace 3 días


    Ciudad de México, Ciudad de México Kapital Grupo Financiero A tiempo completo

    En Kapital Grupo Financiero estamos buscando un DevOps Engineer (ML/AI Focus)Si te apasiona la automatización, la infraestructura en la nube y te emociona construir plataformas que permiten a los equipos de Data Science desplegar modelos de Machine Learning a escala, esta posición es para ti. Queremos a alguien curioso y con ganas de dejar huella en un...


  • Ciudad de México, Ciudad de México Double V Partners A tiempo completo

    Estamos buscando un DevOps Semi Senior para unirse a nuestro equipoSi disfrutas automatizar, optimizar y construir soluciones Cloud que impulsen la eficiencia y la escalabilidad, este rol podría ser perfecto para ti.¿Qué harás? Diseñar y mantener arquitecturas en AWS bajo principios de alta disponibilidad, seguridad y escalabilidad. Implementar...


  • Ciudad de México, Ciudad de México Hays A tiempo completo

    Site Reliability Engineer (SRE) / DevOps EngineerAs aSRE/ DevOps Engineer, you will play a critical role in ensuring the stability and performance of systems that support enterprise-level applications and compliance solutions.If you arebased in Mexicoand have the following experience:Why this role matters:By designing resilient infrastructure, automating...

  • Site Reliability Engineer

    hace 2 semanas


    Ciudad de México, Ciudad de México Tech Mahindra A tiempo completo

    We're Hiring We are seeking a talented Site Reliability Engineer (SRE) CDMX with robust experience in Azure environments, Kubernetes, and DevOps practices.Your mission will be to ensure the reliability, scalability, and automation of our critical platforms. If you thrive on solving complex challenges, automating processes, and ensuring seamless operations,...


  • Ciudad de México, Ciudad de México Indie Campers A tiempo completo

    ABOUT USIndie Campers is the leading campervan provider, dedicated to making road trips accessible and unforgettable for everyone. Innovation, product-led growth, and an unwavering commitment to our customers are at the heart of everything we do. With more than one million nights rented and travellers from 169 countries, we provide a single and trustworthy...

  • sre

    hace 1 semana


    Ciudad de México, Ciudad de México Plata Card A tiempo completo

    Data Tools TeamOur team builds and maintains internal tools that help people across the company work with data efficiently.We focus on data access, visualization, and discovery – making it simple for teams to explore existing data, create dashboards, and share insights.We use and develop open-source systems such as Apache Superset, Jupyter Notebooks, and...

  • DevOps / Local IT Lead

    hace 1 semana


    Ciudad de México, Ciudad de México Alcor A tiempo completo

    ABOUT USIndie Campers is the leading campervan provider, dedicated to making road trips accessible and unforgettable for everyone. Innovation, product-led growth, and anunwavering commitment to our customers are at the heart of everything we do. With more than one million nights rented and travellers from 169 countries, we provide a single and trustworthy...

  • DevOps Engineer#

    hace 2 semanas


    Ciudad de México, Ciudad de México WTW A tiempo completo

    DescriptionWillis Towers Watson is looking for an experienced DevOps Engineer to join their team. This full-time role involves automating build processes, infrastructure, and software configuration management. The engineer will develop and maintain continuous integration platforms across multiple products and support their operations. The position requires...

  • Devops Engineer_Mexico

    hace 1 semana


    Ciudad de México, Ciudad de México Photon Group A tiempo completo

    DescriptionWe are seeking a skilled and motivated DevOps Engineer with a strong background in mobile app development pipelines, CI/CD automation, and cloud infrastructure management, specifically with MacStadium and GitHub Actions. The ideal candidate will be responsible for building and maintaining scalable, reliable, and secure DevOps pipelines to support...


  • Ciudad de México, Ciudad de México Oracle A tiempo completo

    DescriptionKey ResponsibilitiesDesign, implement, and automate ML lifecycle workflows using tools like MLflow, Kubeflow, Airflow and OCI Data Science Pipelines.Build and maintain CI/CD pipelines for model training, validation, and deployment using GitHub Actions, Jenkins, or Argo Workflows.Collaborate with data engineers to deploy models within modern data...