Plan de Continuité et Reprise d'Activité
Ce document présente les plans de continuité d'activité (PCA) et de reprise d'activité (PRA) de téo, conçus pour garantir la disponibilité et la reprise rapide des services en cas d'incident majeur.
Indicateurs clés
| Indicateur | Valeur | Description |
|---|---|---|
| Disponibilité cible | 99,9% | Moins de 8h45 d'indisponibilité par an |
| RPO (Point de récupération) | 24 heures max | Perte de données maximale en cas d'incident majeur |
| RTO (Temps de reprise) | 24 heures max | Délai de remise en service en cas d'incident majeur |
Ces valeurs correspondent au cas le plus défavorable (sinistre datacenter, cyberattaque majeure). En fonctionnement normal, les interruptions de service sont résolues en quelques minutes à quelques heures.
Plan de Continuité d'Activité (PCA)
Risques identifiés
| Risque | Impact potentiel |
|---|---|
| Cyberattaque | Indisponibilité, vol de données |
| Panne datacenter | Interruption de service |
| Erreur humaine | Perte de données, dysfonctionnement |
Stratégies de continuité
Infrastructure
| Mesure | Description |
|---|---|
| Hébergement GCP | Datacenter Saint-Ghislain (Belgique) + redondance europe-west |
| Autoscaling | Ajustement automatique des ressources selon la charge |
| Microservices | Architecture isolée limitant les défaillances en cascade |
Supervision
| Outil | Fonction |
|---|---|
| Google Cloud Monitoring | Surveillance infrastructure temps réel |
| Uptime Robot | Monitoring disponibilité applicative |
| Sentry | Surveillance erreurs et performances |
Sauvegardes
| Type | Fréquence | Rétention |
|---|---|---|
| Sauvegarde complète | Quotidienne (00h00) | 15 jours |
| Journaux Cloud | Continue | 180 jours |
| Stockage | Cloud Storage chiffré AES-256 | - |
Les sauvegardes sont testées trimestriellement pour vérifier leur intégrité.
Pratiques DevOps
| Pratique | Bénéfice |
|---|---|
| Git + GitLab | Versioning et restauration rapide du code |
| CI/CD | Tests automatisés et déploiements sans erreur |
| Branches dédiées | Isolation des développements |
Communication
| Cible | Canal |
|---|---|
| Équipes internes | Ticket incident GitLab avec timeline |
| Clients | Newsletter + tickets publics sur le Dev Center |
Historique des incidents
Nous maintenons un historique public des incidents passés. Vous pouvez consulter l'ensemble des incidents déclarés et leur résolution sur notre registre des incidents.
Plan de Reprise d'Activité (PRA)
Scénarios couverts
- Cyberattaque (ransomware, intrusion...)
- Sinistre datacenter (incendie, panne électrique...)
- Erreur humaine (suppression accidentelle, mauvaise configuration...)
Procédure de reprise
1. Détection et alerte
- Détection automatique par les outils de supervision
- Alerte immédiate des équipes techniques
2. Évaluation
- Analyse de l'étendue de l'incident
- Évaluation de l'impact sur les données et services
- Priorisation des actions
3. Récupération
| Source | Délai |
|---|---|
| Sauvegarde J-1 | Restauration immédiate |
| Sauvegardes J-15 | Analyse approfondie si nécessaire |
| Journaux J-180 | Investigation détaillée |
4. Rétablissement
- Redémarrage des services selon procédures documentées
- Validation de l'intégrité des données
- Tests fonctionnels avant réouverture
5. Communication
- Information des clients sur l'incident et les délais
- Documentation complète dans le ticket d'incident
- Post-mortem et actions correctives
Tests de reprise
Des simulations annuelles d'incidents majeurs permettent de :
- Vérifier l'efficacité du PRA
- Tester les capacités de restauration
- Former les équipes aux procédures
Ressources
Ce document est mis à jour régulièrement. Pour toute question, contactez notre support.
Cet article vous a été utile ?