Alternant Sre Automatisation & Observabilité - Boulogne-Billancourt H/F

La carte

137 Rue d'Aguesseau

Les missions du poste

Et suivez Cegedim sur Twitter :,et.

Loin de l'informatique traditionnelle,incarne cette innovation, en fournissant à ses clients, tant internes Groupe qu'externes, des services Cloud souverains en mode self-service, comprenant notamment une collection de middleware (PaaS) prête à l'emploi, ainsi qu'un accompagnement allant jusqu'au design thinking des applications. Le tout, reposant sur une infrastructure «best of breed», dans un cadre sécurisé et robuste, certifié ISO 20000/27001/HDS, au sein de nos datacenters situés en France.

L'observabilité et l'automatisation sont aujourd'hui au coeur des stratégies de fiabilité et de performance des systèmes cloud. Au sein de Cegedim Cloud, vous rejoindrez une équipe passionnée par les technologies modernes et la culture SRE.

Nous recherchons un(e) alternant(e) motivé(e) et curieux(se), désireux(se) de se former aux environnements cloud et aux outils d'observabilité de nouvelle génération. Intégré(e) à l'équipe Opérations, vous participerez activement à la supervision et à l'automatisation des environnements de production afin de garantir la performance, la fiabilité et la disponibilité des services , dans une démarche inspirée du Site Reliability Engineering (SRE).

Missions principales:

  • Concevoir, déployer et faire évoluer des solutions d'observabilité permettant d'améliorer la supervision des applications (Prometheus, Grafana, ELK, Dynatrace)
  • Collaborer avec les équipes DevOps, production et métiers pour adapter les outils d'observabilité aux enjeux de supervision et de performance des applications.
  • Automatiser la collecte et l'analyse des données (logs, métriques, traces) pour en extraire des indicateurs pertinents et exploitables.
  • Réaliser des analyses de performance et des diagnostics approfondis pour identifier les causes racines des incidents et renforcer la fiabilité des systèmes.
  • Concevoir et mettre en oeuvre des mécanismes d'automatisation des actions de remédiation, afin de réduire les temps d'intervention et d'améliorer la disponibilité des services.
  • Mettre en places des indicateurs de niveau de service (SLI,SLO, Marges d'erreur)