Aller au contenu principal

Plan de Continuité et Reprise d'Activité

Ce document présente les plans de continuité d'activité (PCA) et de reprise d'activité (PRA) de téo, conçus pour garantir la disponibilité et la reprise rapide des services en cas d'incident majeur.

Indicateurs clés

IndicateurValeurDescription
Disponibilité cible99,9%Moins de 8h45 d'indisponibilité par an
RPO (Point de récupération)24 heures maxPerte de données maximale en cas d'incident majeur
RTO (Temps de reprise)24 heures maxDélai de remise en service en cas d'incident majeur
remarque

Ces valeurs correspondent au cas le plus défavorable (sinistre datacenter, cyberattaque majeure). En fonctionnement normal, les interruptions de service sont résolues en quelques minutes à quelques heures.

Plan de Continuité d'Activité (PCA)

Risques identifiés

RisqueImpact potentiel
CyberattaqueIndisponibilité, vol de données
Panne datacenterInterruption de service
Erreur humainePerte de données, dysfonctionnement

Stratégies de continuité

Infrastructure

MesureDescription
Hébergement GCPDatacenter Saint-Ghislain (Belgique) + redondance europe-west
AutoscalingAjustement automatique des ressources selon la charge
MicroservicesArchitecture isolée limitant les défaillances en cascade

Supervision

OutilFonction
Google Cloud MonitoringSurveillance infrastructure temps réel
Uptime RobotMonitoring disponibilité applicative
SentrySurveillance erreurs et performances

Sauvegardes

TypeFréquenceRétention
Sauvegarde complèteQuotidienne (00h00)15 jours
Journaux CloudContinue180 jours
StockageCloud Storage chiffré AES-256-

Les sauvegardes sont testées trimestriellement pour vérifier leur intégrité.

Pratiques DevOps

PratiqueBénéfice
Git + GitLabVersioning et restauration rapide du code
CI/CDTests automatisés et déploiements sans erreur
Branches dédiéesIsolation des développements

Communication

CibleCanal
Équipes internesTicket incident GitLab avec timeline
ClientsNewsletter + tickets publics sur le Dev Center

Historique des incidents

Nous maintenons un historique public des incidents passés. Vous pouvez consulter l'ensemble des incidents déclarés et leur résolution sur notre registre des incidents.

Plan de Reprise d'Activité (PRA)

Scénarios couverts

  1. Cyberattaque (ransomware, intrusion...)
  2. Sinistre datacenter (incendie, panne électrique...)
  3. Erreur humaine (suppression accidentelle, mauvaise configuration...)

Procédure de reprise

1. Détection et alerte

  • Détection automatique par les outils de supervision
  • Alerte immédiate des équipes techniques

2. Évaluation

  • Analyse de l'étendue de l'incident
  • Évaluation de l'impact sur les données et services
  • Priorisation des actions

3. Récupération

SourceDélai
Sauvegarde J-1Restauration immédiate
Sauvegardes J-15Analyse approfondie si nécessaire
Journaux J-180Investigation détaillée

4. Rétablissement

  • Redémarrage des services selon procédures documentées
  • Validation de l'intégrité des données
  • Tests fonctionnels avant réouverture

5. Communication

  • Information des clients sur l'incident et les délais
  • Documentation complète dans le ticket d'incident
  • Post-mortem et actions correctives

Tests de reprise

Des simulations annuelles d'incidents majeurs permettent de :

  • Vérifier l'efficacité du PRA
  • Tester les capacités de restauration
  • Former les équipes aux procédures

Ressources


Ce document est mis à jour régulièrement. Pour toute question, contactez notre support.

Cet article vous a été utile ?