Deine Rolle
* Verantwortlich bist du für das SRE-Framework (SLIs, SLOs, Error Budgets, Post-Mortems)
* Reliability-, Observability- und Betriebsstandards definierst du für alle Plattformen (Cloud und On-Prem)
* Das Zertifizieren der ZKB-Plattformlandschaft (On-Premise und Cloud) als SRE-ready ist dein Ziel.
* Aufbauen und Weiterentwickeln einer einheitlichen Observability-Architektur (Logging, Metrics, Tracing) ist deine Aufgabe
* Entwicklung von Automationsmustern für den Betrieb und die Zuverlässigkeit (GitOps, Self-Healing, Auto-Remediation)
* Mitarbeit bei den Golden Paths und der Internal Developer Platform (Runtime- und Betriebs-Standards)
* Enges Zusammenarbeiten mit Compute Platforms zur harmonisierten Cloud-/On-Prem-Architektur
Dein Profil
* Hochschulabschluss in Informatik oder vergleichbare technische Ausbildung erforderlich
* Erfahrung im Bereich Site Reliability Engineering, Plattformbetrieb oder Reliability Architecture notwendig
* Tiefe technische Expertise in Observability (OpenTelemetry, Metrics, Logging, Tracing) und Automationsstandards (IaC, GitOps)
* Fundiertes Know-how im Betrieb containerbasierter Plattformen (Kubernetes, AKS) und hybrider Architekturen gefragt
* Erfahrung mit SRE-Praktiken (SLIs/SLOs, Error Budgets, Post-Mortems) in komplexen IT-Organisationen vorausgesetzt
* Die Fähigkeit, Betriebsmodelle zu standardisieren und technische Verantwortlichkeit klar zu verankern
* Sehr gute Deutsch- & Englischkenntnisse (mind. C1) sowie ausgeprägtes analytisches Denken und technische Führungsstärke sind wünschenswert