Empowering every employee. Our mission is to be the world's most used AI employee experience platform by changing the way frontline employees work. Bei Flip wollen wir die Welt der Frontline-Worker revolutionieren und ihnen eine Stimme geben! Werde jetzt ein Flip Game Changer und arbeite mit einem unschlagbaren Team daran, dass alle Mitarbeitenden, ganz gleich wo sie arbeiten, Zugang zu ihren unternehmensinternen Informationen haben. Bist du bereit, das Arbeitsleben von Millionen von Menschen zu transformieren? Dann komm zu uns! Stellenbeschreibung Als Site Reliability Engineer in unserem Platform Squad wirst du eine Schlüsselrolle dabei spielen, Flips Infrastruktur schnell, belastbar und bereit für Skalierung zu halten. Du wirst die Reliability-Kultur, Tools und Praktiken gestalten, die es unseren Engineering-Teams ermöglichen, mit Vertrauen zu veröffentlichen – im großen Maßstab und ohne Kompromisse bei der Verfügbarkeit. Diese Rolle ist perfekt für einen Engineer mit Leidenschaft für den Aufbau von Hochdurchsatz- und hochverfügbaren Systemen, der mitgestalten möchte, wie eine schnell wachsende SaaS-Plattform im Produktivbetrieb läuft. Was dich bei uns erwartet • Skalierung ermöglichen: Erweitere und optimiere unsere Cloud-Infrastruktur auf Azure und unsere Kubernetes-Cluster – ausgelegt auf hohen Durchsatz und höchste Verfügbarkeit – um das schnelle weltweite Wachstum von Flip zu unterstützen. • Resilienz & Sicherheit gewährleisten: Entwirf und implementiere Zero-Downtime-Deployments, Rollback-Mechanismen und Disaster-Recovery-Strategien, die unsere Plattform rund um die Uhr verfügbar halten. • Observability schaffen: Entwickle unseren LGTM-Stack (Loki, Grafana, Tempo, Mimir) weiter, um jedem Team die nötige Sichtbarkeit zu geben – und nutze ihn, um unsere SLOs zu definieren und zu optimieren. • Alles automatisieren: Entwirf, entwickle und optimiere Infrastructure as Code mit Pulumi in Go, um manuellen Aufwand (Toil) zu eliminieren und unsere Plattform für Engineering-Teams als Self-Service bereitzustellen. • Reliability-Praktiken vorantreiben: Fördere CI/CD Best Practices, Incident Management, Post-Mortems und Developer Experience in der gesamten Engineering-Organisation. • Unsere Roadmap gestalten: Arbeite mit deinem Squad und dem Engineering-Leadership zusammen, um die Richtung der Plattform zu definieren – von skalierbaren Hochdurchsatz-Systemen und Kostenoptimierung bis hin zu Security Posture und Compliance. Was du mitbringst Wir suchen einen Hands-on, produktorientierten Engineer mit einer Leidenschaft für hochverfügbare Hochdurchsatz-Systeme – und dem Zuverlässigkeit genauso wichtig ist wie Geschwindigkeit. Must-Have Qualifikationen • Du hast 1–3 Jahre Hands-on-Erfahrung als Site Reliability Engineer (SRE), Platform Engineer, DevOps Engineer, Infrastructure Engineer, Cloud Engineer oder Backend Engineer mit starkem Infrastruktur-Fokus. • Erfahrung im Betrieb und in der Skalierung von Cloud-Infrastrukturen (Azure, GCP, AWS). • Tiefe Kenntnisse in Kubernetes und Container-Orchestrierung in Produktionsumgebungen. • Hands-on-Erfahrung mit modernen Observability-Stacks (z. B. Prometheus, Mimir, Loki, ELK) und vertraut mit der Definition und dem Betrieb von SLOs und Error Budgets. • Fundierte Software-Entwicklungskenntnisse in Go (bevorzugt, da unser IaC auf Pulumi in Go läuft), Python oder Kotlin. • Hands-on-Erfahrung mit Infrastructure as Code (z. B. Pulumi, OpenTofu, Terraform) und Konfigurations-Tools (z. B. Ansible, Chef). • Ein kollaboratives Mindset, starke Kommunikationsfähigkeiten und verhandlungssicheres Englisch. • Bereitschaft zur Teilnahme an On-Call-Rotationen (Rufbereitschaft), um die Zuverlässigkeit unserer Plattform zu gewährleisten. Nice-to-Have Qualifikationen • Erfahrung im Aufbau und Betrieb von Hochdurchsatz- und hochverfügbaren Systemen im Produktivbetrieb. • Speziell Erfahrung mit Azure Kubernetes Service (AKS). • Erfahrung mit Kubernetes Gateway API und Envoy Gateway. • Vertrautheit mit GitOps-Workflows und CI/CD-Pipeline-Design. • Kenntnisse in Service-Mesh-Technologien (z. B. Linkerd, Istio). • Erfahrung mit Kubernetes Operators (z. B. Strimzi, CNPG). • Erfahrung mit dem Betrieb von High-Availability PostgreSQL. Das bieten wir dir • Work-Mode: Wir sind remote-first und geben dir damit die Flexibilität, von zu Hause aus zu arbeiten. Gleichzeitig schätzen wir den Mehrwert der persönlichen Zusammenarbeit sehr. Je nach Rolle nimmst du gelegentlich an Team-Events, Workshops oder Meetings in unseren Büros in Berlin oder Stuttgart teil – selbstverständlich immer mit ausreichend Vorlauf. Das genaue Verhältnis besprechen wir transparent während deines Bewerbungsprozesses. • Work-Life-Balance: Wir wollen nicht, dass du an deinem Schreibtischstuhl festwächst und übernehmen deshalb die Kosten für deine E-Gym-Wellpass-Mitgliedschaft und bieten Job-Rad Leasing an. • Erfolge feiern: Dich erwarten hoch motivierte und engagierte Menschen in einer lockeren Arbeitsatmosphäre. • Mittendrin statt nur dabei: Du gestaltest Flip aktiv mit. Ganz nebenbei bist du Enabler des rasanten Wachstumsprozesses eines jungen Tech-Unternehmens und wächst an deinen Zielen. Gute Laune garantiert. • Happy to be a Flipster: Freu dich auf regelmäßige Teamevents und Culture Days, die uns als Flipster zusammenschweißen. • Arbeiten im Ausland: Bei Flip kannst du auch im europäischen Ausland arbeiten, lass uns im Interview über Workation sprechen. Damit unsere Stellenanzeigen leichter lesbar sind, verwenden wird im Textverlauf die männliche Form der Anrede. Bei Flip sind alle willkommen ganz egal, welches Geschlecht du hast oder wie alt du bist. Sexuelle Identität, Herkunft, Religion, Weltanschauung und Behinderungen spielen keine Rolle. Das Wichtigste ist, dass DU zu uns passt!

Site Reliability Engineer (m/w/d) at Flipapp

Similar Engineering Jobs

Software Engineer (Data Platform)

Backend engineer

Senior Backend Engineer

Share this job

About Flipapp

Sr. Software Engineer

Sr Full Stack Engineer

Cyber Test Engineer

Translation Jobs

Popular Skills

Jobs by Salary

For Job Seekers

For Employers