Le SRE (Site Reliability Engineering) est une discipline née chez Google qui applique les principes du génie logiciel à l'exploitation des systèmes. L'objectif : rendre les applications fiables, disponibles et performantes en production grâce à l'automatisation et aux indicateurs mesurables.
SLO et error budgets
Le SRE définit des SLO (Service Level Objectives) mesurables : temps de réponse, taux de disponibilité, taux d'erreur. L'error budget quantifie la marge d'erreur acceptable. Tant que le budget n'est pas épuisé, l'équipe peut livrer de nouvelles fonctionnalités. Sinon, la priorité passe à la fiabilité.
Automatisation du toil
Le « toil » désigne le travail opérationnel répétitif et sans valeur durable. Le SRE vise à l'automatiser systématiquement : déploiements, scaling, réponse aux incidents. Moins de toil signifie plus de temps pour améliorer la fiabilité du système.
Le SRE comble le fossé entre « ça marche en développement » et « ça tient en production ». C'est une culture autant qu'un ensemble de pratiques — applicable même dans les petites équipes.