New Post: Senior SRE Engineer (Site Reliability Engineering), 100% En remoto - [Upgrade to PRO to see link] SRE Engineer (Site Reliability Engineering) We are knowmad mood! Somos una compañĂa lĂder en transformaciĂłn digital, en constante evoluciĂłn y a la vanguardia de la tecnologĂa. Nacimos para provocar un cambio real a travĂ©s de la innovaciĂłn y el desarrollo sostenible, con la misiĂłn de aportar valor a los clientes e impulsar nuestro talento. Formado por más de 3.000 personas creativas, digitales e innovadoras conectadas a un propĂłsito y capaces de generar conexiones con personas de todo el mundo. Un equipo responsable, flexible y con alta capacidad de adaptaciĂłn a las necesidades de nuestros clientes y del mercado, a la vez que proporciona valor, visiĂłn, creatividad, expertise, profesionalidad y pasiĂłn por la tecnologĂa en cada proyecto. Los valores que marcan nuestro rumbo y nos guĂan hacia la excelencia son la colaboraciĂłn, la innovaciĂłn, el compromiso, la diversiĂłn y la con anza. ÂżQuĂ© es lo que valoramos? - Compromiso, trabajo en equipo y capacidad para comunicar ideas tĂ©cnicas complejas. - Experiencia sĂłlida en monitorizaciĂłn y observabilidad (Prometheus, Grafana, ELK). - Conocimiento avanzado en arquitecturas de microservicios y patrones de resiliencia. - Dominio de Java 8/11 y prácticas de testing. - Experiencia con Docker y Kubernetes. - Experiencia en performance testing, resoluciĂłn de incidencias y guardias on-call. - Conocimientos en SRE, Chaos Engineering y AIOps. - Perfil claramente senior y acostumbrado a trabajar en squads multidisciplinares. - Nivel alto de inglĂ©s. ÂżCuáles serĂan tus funciones? - Garantizar la fiabilidad y disponibilidad de los servicios en producciĂłn aplicando prácticas SRE. - Diseñar e implementar monitorizaciĂłn y observabilidad con Prometheus, Grafana y ELK. - Gestionar arquitecturas de microservicios, aplicando patrones de resiliencia (circuit breaker, bulkheading, service discovery). - Desarrollar y mantener automatizaciones y servicios en Java (8/11) con buenas prácticas de testing. - Administrar y optimizar contenedores y despliegues en Docker y Kubernetes. - Realizar performance testing, análisis de capacidad y mejora continua del rendimiento. - Participar en guardias rotativas y resoluciĂłn de incidencias crĂticas, incluyendo post-mortems. - Aplicar Chaos Engineering para validar la resiliencia del sistema. - Implementar prácticas de AIOps para mejorar la detecciĂłn y respuesta automatizada de incidentes. - Colaborar dentro de un squad multidisciplinar, aportando visiĂłn tĂ©cnica y coordinándose con desarrollo, QA y producto. Además, valoraremos muy positivamente si tienes experiencia y/o conocimientos en: - Arquitecturas cloud (Azure, AWS o GCP). - GestiĂłn avanzada de pipelines CI/CD. - Observabilidad de aplicaciones distribuidas a gran escala. - MetodologĂas ágiles y trabajo e