Aufgaben
- Sicherstellung des stabilen und zuverlässigen Betriebs der ML-Pipelines in Databricks
- Überwachung, Analyse und Optimierung von Jobs, Clustern und Workflows
- Weiterentwicklung und Verbesserung der Machine-Learning-Modelle (Feature Engineering, Retraining, Evaluation)
- Versionierung und Deployment von Modellen über GitLab CI/CD
- Entwicklung und Betrieb von Datenpipelines (ETL/ELT) auf Basis von Spark
- Verarbeitung und Integration von Daten aus SAP- und GIS-Systemen
- Anbindung und Nutzung von REST APIs zur Datenintegration
- Modellierung und Verwaltung von Datenstrukturen (Delta Tables, Unity Catalog, Azure Blob Storage)
- Bereitstellung von Ergebnissen in externe SQL-Datenbanken
- Monitoring von Modell- und Datenqualität sowie Management von Zugriffs- und Sicherheitskonzepten (Service Principals, Managed Identities, Key Vault)
Profil
- Sehr gute Kenntnisse in Python und in PySpark / Spark SQL
- Fundierte Erfahrung mit Databricks (Workflows, Cluster, Repositories, Unity Catalog, Delta Lake)
- Erfahrung mit GitLab CI/CD (Pipelines, Runner, Deployment-Strategien)
- Kenntnisse in der Entwicklung und Nutzung von REST APIs (Requests, Authentifizierung, OpenAPI)
- Sehr gute SQL-Kenntnisse (Analyse sowie Schreiben in externe Datenbanken)
- Erfahrung im Betrieb produktiver ML-Systeme wünschenswert
- Verständnis für Cloud-Architekturen im Azure-Umfeld
Benefits
- Homeoffice
- Eine übertarifliche Bezahlung
- Betriebliche Altersvorsorge
- Betreuung im gesamten Bewerbungsprozess
- Durch Ihre Kandidatur über Hays sind Sie Teil einer kleinen, passgenauen Auswahl, die dem Kunden für diese Position präsentiert wird
- Ein renommiertes Unternehmen mit ausgezeichnetem Ruf