Aller au contenu principal

Plan de Continuité d'Activité (PCA) et Plan de Reprise d'Activité (PRA)

Introduction

Ce document présente les plans de continuité d'activité (PCA) et de reprise d'activité (PRA) pour le logiciel téo. Ces plans sont conçus pour garantir la résilience, la disponibilité et la reprise rapide des services en cas d'incident majeur, assurant ainsi une expérience utilisateur ininterrompue et sécurisée.

Plan de Continuité d'Activité (PCA)

Objectifs du PCA

Le PCA a pour objectif de garantir la continuité des fonctions critiques du logiciel téo en cas de crise majeure. Il vise à maintenir les opérations essentielles, minimiser les interruptions et réduire l'impact des incidents sur les utilisateurs.

Analyse des Risques

  1. Identification des Risques :
    • Cyber malveillance et cyber criminalité
    • Incendies, pannes d’électricité, pannes matérielles du centre de données
    • Erreur humaine
  2. Évaluation de l'Impact :
    • Impact sur la disponibilité des services
    • Impact sur l'intégrité des données
    • Impact sur la réputation de l'entreprise

Stratégies de Continuité

Infrastructure et Hébergement

  • Hébergement : Nos infrastructures sont hébergées sur Google Cloud, utilisant les centres de données situés à Saint-Ghislain, Belgique (europe-west-1) et dans d'autres régions europe-west pour certains services, assurant ainsi une redondance géographique.
  • Disponibilité : Nous avons pour objectif d'offrir une disponibilité de 99,9%, soit moins de 8h45 d’indisponibilité par an.

Supervision et Surveillance

  • Supervision des Infrastructures : Nous utilisons Google Cloud Monitoring pour surveiller en temps réel les performances de nos infrastructures.
  • Supervision Applicative : Nous utilisons Uptime Robot pour surveiller la disponibilité des applications et Sentry pour la surveillance des erreurs et des performances.

Gestion des Sauvegardes et des Données

  • Sauvegarde Quotidienne : Des sauvegardes complètes des données sont effectuées chaque jour à 00h00 et conservées pendant 15 jours.
  • Stockage Sécurisé : Les sauvegardes sont stockées de manière sécurisée dans Google Cloud Storage avec chiffrement AES-256.
  • Tests de Restauration Réguliers : Des tests trimestriels sont réalisés pour vérifier l'intégrité et la fiabilité des sauvegardes.

Pratiques DevOps

  • Contrôle des Versions avec Git : Nous utilisons Git pour la gestion des versions du code, permettant une restauration rapide en cas de besoin.
  • Dépôt GitLab : Les dépôts de code sont hébergés sur GitLab, qui gère également les pipelines CI/CD.
  • Développements à Branche Unique : Chaque fonctionnalité est développée indépendamment sur des branches dédiées.
  • Intégration Continue (CI) : Nos pipelines CI automatisent les tests pour garantir la qualité du code.
  • Déploiement Continu (CD) : Les déploiements sont automatisés pour limiter les erreurs humaines.
  • Architecture en Microservices : Nos composants sont isolés pour limiter les défaillances en cascade.
  • Adaptabilité de l’Infrastructure en Temps Réel : L'autoscaling ajuste automatiquement les ressources en fonction de la charge de travail.

Plan de Communication

  • Interne : Les équipes internes sont rapidement informées des incidents et des mesures prises via la création d'un ticket d'incident sur GitLab. Ce ticket inclut toute la chronologie (timeline) et les événements de l'incident, les actions prises, les mises à jour en temps réel et la résolution finale.
  • Externe : Les clients et les parties prenantes sont informés de l'état des services et des actions entreprises via des newsletters et des tickets d'incident GitLab dans le Dev Center.

Plan de Reprise d'Activité (PRA)

Objectifs du PRA

Le PRA détaille les procédures à suivre pour reprendre rapidement les activités après un incident majeur, afin de minimiser les impacts sur les opérations et de rétablir les services aux utilisateurs le plus rapidement possible.

Scénarios d'Incidents Majeurs

  1. Cyber malveillance et cyber criminalité
  2. Incendies, pannes d’électricité, pannes matérielles du centre de données
  3. Erreur humaine

Étapes du PRA

Détection et Alerte

  • Supervision Continue : Utilisation d'outils de surveillance pour détecter les incidents en temps réel.
  • Notification : Alerte automatique des équipes techniques en cas d'incident majeur.

Évaluation de l'Incident

  • Analyse de l'Impact : Évaluation de l'étendue de l'incident et de son impact sur les services et les données.
  • Priorisation des Actions : Détermination des actions prioritaires pour limiter les dommages et rétablir les services.

Récupération des Données

  • Restaurations Immédiates : Utilisation des sauvegardes quotidiennes pour restaurer les données à l'état de 24 heures auparavant.
  • Sauvegardes à Long Terme : Accès aux sauvegardes à -15 jours et aux journaux Google Cloud à -180 jours pour des analyses approfondies.

Rétablissement des Services

  • Redémarrage des Services : Relance des services critiques en suivant des procédures documentées.
  • Validation des Données : Vérification de l'intégrité des données restaurées avant de rétablir l'accès aux utilisateurs.

Communication et Documentation

  • Informer les Clients : Les clients sont informés de l'incident, des mesures prises et des délais de rétablissement prévus via des newsletters et des tickets d'incident GitLab dans le Dev Center.
  • Reporting : Toute la chronologie et les événements de l'incident sont documentés dans un ticket d'incident sur GitLab, incluant les actions prises, les mises à jour en temps réel et la résolution finale.

Points de Récupération

  • Point de Récupération des Données : Dernière sauvegarde, soit 24 heures pour téo.
  • Point de Récupération de la Disponibilité : Temps nécessaire pour récupérer les données et reprendre les activités, soit 24 heures.

Tests de Reprise Réguliers

  • Tests Annuels : Simulation d'incidents majeurs pour tester l'efficacité du PRA et des capacités de restauration.

Conclusion

La mise en œuvre de ces plans de continuité et de reprise d'activité assure que le logiciel téo reste disponible et performant, même en cas d'incident majeur. En suivant ces procédures, nous minimisons les interruptions de service et protégeons les données de nos utilisateurs.

Liens Utiles


Ce document sera mis à jour régulièrement pour refléter les changements dans les procédures et les technologies utilisées. Pour toute question ou information supplémentaire, veuillez nous contacter via notre support.

Cet article vous a été utile ?