Centre d'information

Le seul guide de reprise après incident dont vous aurez besoin

La reprise après incident (DR) fait référence à la partie de la planification de la sécurité qui vise à protéger votre organisation contre les effets négatifs d'événements indésirables importants. Elle permet à une organisation de maintenir ou de reprendre rapidement ses fonctions critiques après un sinistre de données sans encourir de pertes significatives dans les opérations de l'entreprise ou les revenus.

Les sinistres se présentent sous différentes formes et tailles. Ils ne font pas seulement référence à des événements catastrophiques tels que des tremblements de terre, des tornades ou des ouragans, mais également à des incidents de sécurité tels que des pannes d'équipement, des cyberattaques ou même du terrorisme classé comme sinistre.

En préparation, les organisations et les entreprises créent des plans de reprise après incident détaillant les processus à suivre et les mesures à prendre pour reprendre leurs fonctions critiques.

Qu'est-ce que la reprise après incident ?

La reprise après incident se concentre sur les systèmes informatiques qui aident à prendre en charge les fonctions commerciales critiques d'une organisation. Elle est souvent associée au terme continuité des affaires, mais les deux ne sont pas entièrement interchangeables. La reprise après incident fait partie de la continuité des affaires. Elle se concentre davantage sur le maintien de tous les aspects de l'entreprise malgré les sinistres.

Les systèmes informatiques étant devenus essentiels à la réussite d'une entreprise, la reprise après incident est désormais un pilier principal du processus de continuité des affaires.

La plupart des propriétaires d'entreprise ne considèrent généralement pas qu'ils peuvent être victimes d'une catastrophe naturelle jusqu'à ce qu'une crise imprévue se produise, ce qui finit par coûter cher en pertes opérationnelles et économiques pour leur entreprise. Ces événements peuvent être imprévisibles et, en tant que propriétaire d'entreprise, vous ne pouvez pas risquer de ne pas avoir de plan de préparation aux sinistres en place.

À quel type de sinistres les entreprises sont-elles confrontées ?

Les sinistres pour les entreprises peuvent être technologiques, naturels ou d'origine humaine. Les inondations, les tornades, les ouragans, les glissements de terrain, les tremblements de terre et les tsunamis sont des exemples de catastrophes naturelles. Les sinistres d'origine humaine et technologiques impliquent des choses comme les déversements de matières dangereuses, les pannes d'électricité ou d'infrastructure, les menaces d'armes chimiques et biologiques, les explosions ou les effondrements de centrales nucléaires, les cyberattaques, les actes de terrorisme, les explosions et les troubles civils.

Les sinistres potentiels à prévoir comprennent :

  • Défaillance d'application
  • Défaillance de la VM
  • Défaillance de l'hôte
  • Défaillance du rack
  • Échec de communication
  • Sinistre du datacenter
  • Sinistre du bâtiment ou du campus
  • Sinistres à l'échelle de la ville, régionaux, nationaux et multinationaux

Pourquoi vous avez besoin de la reprise après incident

Quelle que soit la taille ou l'industrie, lorsque des événements imprévus se produisent, entraînant l'arrêt des opérations quotidiennes, votre entreprise doit se rétablir rapidement pour assurer la continuité de la fourniture de vos services aux clients.

Les temps d'arrêt comptent sans doute parmi les dépenses informatiques les plus importantes auxquelles une entreprise est confrontée. Sur la base de statistiques de reprise après incident de 2014-2015 d'Infrascale, une heure de temps d'arrêt peut coûter jusqu'à 8 000 $ pour les petites entreprises, 74 000 $ pour les moyennes entreprises et 700 000 $ pour les grandes organisations.

Pour les petites et moyennes entreprises (PME), une perte de productivité prolongée peut entraîner une réduction des flux de trésorerie liés aux commandes perdues, une facturation tardive, des dates de livraison manquées et une augmentation des coûts de main-d'œuvre en raison des heures supplémentaires résultant des efforts de récupération des temps d'arrêt.

Si vous n'anticipez pas les perturbations majeures de votre entreprise et n'y répondez pas de manière appropriée, vous risquez de subir des conséquences et des implications négatives et à long terme en raison de la survenance de sinistres imprévus.

La mise en place d'un plan de reprise après incident peut sauver votre entreprise de multiples risques, notamment :

  • Perte de réputation
  • Dépenses hors budget
  • Perte des données
  • Impact négatif sur vos clients

Alors que les entreprises dépendent de plus en plus de la haute disponibilité, leur tolérance pour les temps d'arrêt a diminué. Par conséquent, beaucoup ont une reprise après incident en place pour empêcher les effets néfastes des sinistres d'affecter leurs opérations quotidiennes.

L'essence de la reprise après incident : objectifs de point de récupération et de temps de récupération

Les deux mesures critiques de la reprise après incident et du temps d'arrêt sont les suivantes :

  • Objectif de point de récupération (RPO) : il fait référence à l'âge maximal des fichiers que votre organisation doit récupérer de son stockage de sauvegarde pour garantir la reprise de ses opérations normales après un sinistre. Il détermine la fréquence de sauvegarde minimale. Par exemple, si votre organisation a un RPO de quatre heures, son système doit sauvegarder toutes les quatre heures.
  • Objectif de temps de récupération (RTO) : il fait référence au temps maximal nécessaire à votre organisation pour récupérer ses fichiers à partir d'une sauvegarde et reprendre les opérations normales après un sinistre. Par conséquent, le RTO est le temps d'arrêt maximal que votre organisation peut gérer. Si le RTO est de deux heures, vos opérations ne peuvent pas être à l'arrêt pendant une plus longue période.

Une fois que vous avez identifié vos RPO et RTO, vos administrateurs peuvent utiliser les deux mesures pour choisir les stratégies, procédures et technologies de reprise après incident optimales.

Pour reprendre les opérations pendant des fenêtres de RTO plus étroites, votre organisation doit placer ses données secondaires de manière optimale pour les rendre facilement et rapidement accessibles. Une méthode utilisée pour restaurer rapidement les données est la récupération sur place car elle déplace tous les fichiers de données de sauvegarde vers un état actif, ce qui élimine la nécessité de les déplacer sur un réseau. Cela peut protéger contre les défaillances du serveur et du système de stockage.

Avant d'utiliser la récupération sur place, votre organisation doit considérer trois choses :

  • Ses performances d'appliance de sauvegarde sur disque
  • Le temps nécessaire pour déplacer toutes les données de leur état de sauvegarde à un état actif
  • La restauration

De plus, étant donné que la récupération sur place peut parfois prendre jusqu'à 15 minutes, la réplication peut être nécessaire si vous souhaitez un temps de restauration plus rapide. La réplication fait référence à l'actualisation ou à la copie électronique périodique d'une base de données du serveur informatique A vers le serveur B, ce qui garantit que tous les utilisateurs du réseau partagent toujours le même niveau d'informations.

Plan de reprise après incident (DRP)

Essayez le Guide de planification de la reprise après incident Veritas

Un plan de reprise après incident désigne une approche structurée et documentée avec des instructions mises en place pour répondre aux incidents imprévus. Il s'agit d'un plan étape par étape qui comprend les précautions mises en place pour minimiser les effets d'un sinistre afin que votre organisation puisse reprendre rapidement ses fonctions critiques ou continuer à fonctionner comme d'habitude.

En règle générale, le plan de reprise après incident implique une analyse approfondie de tous les processus opérationnels et des besoins de continuité. De plus, avant de générer un plan détaillé, votre organisation doit effectuer une analyse des risques (RA) et une analyse de l'impact sur l'entreprise (BIA). Elle devrait également établir ses RTO et RPO.

1. Stratégies de reprise

Une stratégie de reprise doit commencer au niveau de l'entreprise, ce qui vous permet de déterminer les applications les plus critiques pour faire fonctionner votre organisation. Les stratégies de reprise définissent les plans de votre organisation pour répondre aux incidents, tandis que les plan de reprise après incident décrivent en détail comment vous devez réagir.

Lors de la détermination d'une stratégie de reprise, vous devez notamment prendre en compte les problèmes suivants :

  • Budget
  • Ressources disponibles comme les personnes et les installations physiques
  • Position de la direction sur le risque
  • Technologie
  • Création
  • Fournisseurs
  • Fournisseurs tiers

La direction doit approuver toutes les stratégies de reprise, qui doivent s'aligner sur les objectifs et les buts de l'organisation. Une fois les stratégies de reprise développées et approuvées, vous pouvez ensuite les traduire en plan de reprise après incident.

2. Étapes de planification de la reprise après incident

Le processus de plan de reprise après incident implique bien plus que la simple rédaction du document. Une analyse de l'impact sur l'entreprise (BIA) et une analyse des risques (RA) aident à déterminer les domaines sur lesquels concentrer les ressources dans le processus de plan de reprise après incident.

La BIA est utile pour identifier les impacts des événements perturbateurs, ce qui en fait le point de départ pour l'identification des risques dans le contexte de la reprise après incident. Elle permet également de générer le RTO et le RPO.

L'analyse des risques identifie les vulnérabilités et les menaces qui pourraient perturber le fonctionnement normal des processus et des systèmes mis en évidence dans la BIA. L'analyse des risques évalue également la probabilité de survenance d'un événement perturbateur et aide à décrire sa gravité potentielle.

Une liste de contrôle de plan de reprise après incident comporte les étapes suivantes :

  • Établir le périmètre d'activité
  • Rassembler les documents d'infrastructure de réseau pertinents
  • Identifier les menaces et vulnérabilités graves ainsi que les actifs critiques de l'organisation
  • Examiner l'historique des incidents imprévus de l'organisation et leur traitement
  • Identifier les stratégies de reprise après incident actuelles
  • Identifier l'équipe d'intervention d'urgence
  • Faire examiner et approuver le plan de reprise après incident par la direction
  • Tester le plan
  • Mettre à jour le plan
  • Mettre en place un audit de plan de reprise après incident

3. Création d'un plan de reprise après incident

Une organisation peut démarrer son plan de reprise après incident avec un résumé de toutes les étapes d'action vitales requises et une liste de contacts essentiels, ce qui garantit que les informations cruciales sont facilement et rapidement accessibles.

Le plan devrait également définir les rôles et responsabilités des membres de l'équipe tout en définissant les critères de lancement du plan d'action. Il doit ensuite spécifier, en détail, les activités de réponse et de reprise. Les autres éléments essentiels d'un modèle de plan de reprise après incident comprennent notamment les éléments suivants :

  • Déclaration d'intention
  • Énoncé de politique de reprise après incident
  • Définition d'objectifs
  • Outils d'authentification tels que les mots de passe
  • Risques et facteurs géographiques
  • Conseils pour gérer les médias
  • Informations légales et financières
  • Historique du plan

4. Portée et objectifs du plan de reprise après incident

Un plan de reprise après incident peut varier en termes de portée (c'est-à-dire, d'un plan basique à un plan complet). Certains peuvent contenir plus de 100 pages.

Les budgets de reprise après incident peuvent considérablement varier et fluctuer au fil du temps. Par conséquent, votre organisation peut profiter de toutes les ressources gratuites disponibles telles que les modèles de plan de reprise après incident en ligne de l'Agence fédérale de gestion des urgences (Federal Emergency Management Agency). Il existe également de nombreuses informations gratuites et des articles pratiques en ligne.

Une liste de contrôle des objectifs de plan de reprise après incident comprend les éléments suivants :

  • Identification des réseaux et systèmes informatiques critiques
  • Priorisation du RTO
  • Description des étapes nécessaires pour démarrer, reconfigurer ou restaurer des systèmes et des réseaux

Le plan doit au moins minimiser les effets négatifs sur les opérations commerciales quotidiennes. Vos employés doivent également connaître les mesures d'urgence nécessaires à suivre en cas d'incidents imprévus.

La distance, bien qu'importante, est souvent négligée pendant le processus de plan de reprise après incident. Un site de reprise après incident situé à proximité du datacenter principal est idéal en termes de commodité, de coût, de test et de bande passante. Cependant, étant donné que les pannes diffèrent par leur portée, un événement régional grave peut détruire à la fois le datacenter principal et son site de reprise après incident lorsque les deux sont situés à proximité l'un de l'autre.

5.  Types de plans de reprise après incident

Vous pouvez personnaliser un plan de reprise après incident pour un environnement donné.

  • Plan de reprise après incident virtualisé : la virtualisation vous permet de mettre en place une reprise après incident en utilisant une méthode simple et efficace. À l'aide d'un environnement virtualisé, vous pouvez créer de nouvelles instances de machines virtuelles (VM) immédiatement et fournir une récupération d'application haute disponibilité. De plus, cela facilite les tests. Votre plan doit inclure une capacité de validation pour garantir que les applications peuvent s'exécuter plus rapidement en mode de reprise après incident et revenir aux opérations normales en respectant le RTO et le RPO.
  • Plan de reprise après incident réseau : l'élaboration d'un plan de restauration d'un réseau se complique avec l'augmentation de la complexité du réseau. Par conséquent, il est essentiel de détailler la procédure de restauration étape par étape, de la tester correctement et de la maintenir à jour. Dans un plan de reprise après incident réseau, les données sont spécifiques au réseau ; par exemple, dans ses performances et son personnel de réseautage.
  • Plan de reprise après incident cloud : une reprise après incident basée sur le cloud peut aller de la sauvegarde de fichiers au processus de réplication complet. Le plan de reprise après incident cloud est rentable en termes de temps, d'espace et de coût ; cependant, son entretien nécessite des compétences et une bonne gestion. Votre responsable informatique doit connaître à la fois l'emplacement des serveurs physiques et des serveurs virtuels. En outre, le plan doit résoudre les problèmes de sécurité liés au cloud.
  • Plan de reprise après incident de data center : ce plan se concentre sur votre data center et son infrastructure. Un élément clé de ce plan de reprise après incident est l'évaluation des risques opérationnels car il analyse les composants clés requis, tels que l'emplacement du bâtiment, la sécurité, l'espace de bureau, les systèmes d'alimentation et la protection. Il doit également prévoir un éventail plus large de scénarios possibles.

Test de reprise après incident

Les tests viennent valider tous les plans de reprise après incident. Ils identifient les lacunes du plan et offrent des opportunités de résoudre les problèmes avant la survenance d'un sinistre. Les tests peuvent également fournir la preuve de l'efficacité du plan et atteindre les RPO.

Les technologies et systèmes informatiques sont en constante évolution. Par conséquent, les tests garantissent que votre plan de reprise après incident est à jour.

Il existe certaines raisons pour ne pas tester les plans de reprise après incident telles que les restrictions budgétaires, le manque d'approbation de la direction ou les contraintes de ressources. Les tests de reprise après incident nécessitent également du temps, de la planification et des ressources. Ils peuvent également représenter un risque d'incident s'ils impliquent l'utilisation de données actives. Cependant les tests sont une partie essentielle de la planification de reprise après incident que vous ne devez jamais ignorer.

Les tests de reprise après incident vont du simple au complexe :

  • Un examen du plan implique une discussion détaillée du plan de reprise après incident et recherche les éléments manquants et les incohérences.
  • Un test sur table permet aux participants de parcourir étape par étape les activités du plan. Il démontre si les membres de l'équipe de reprise après incident connaissent leurs fonctions en cas d'urgence.
  • Un test de simulation est un test à grande échelle qui utilise des ressources telles que des systèmes de sauvegarde et des sites de reprise sans basculement réel.
  • L'exécution en mode sinistre pendant une période est une autre méthode de test de vos systèmes. Par exemple, vous pouvez basculer vers votre site de reprise et laisser vos systèmes s'exécuter à partir de là pendant une semaine avant de revenir en arrière.

Votre organisation doit planifier les tests dans sa politique de reprise après incident ; cependant, méfiez-vous de son caractère intrusif. En effet, les tests trop fréquents sont contre-productifs et épuisants pour votre personnel. D'un autre côté, tester moins régulièrement est également risqué. Testez également systématiquement votre plan de reprise après incident après avoir apporté des modifications importantes au système.

Pour tirer pleinement profit des tests :

  • Obtenez l'approbation et le financement de la direction
  • Fournissez des informations de test détaillées à toutes les parties concernées
  • Assurez-vous que l'équipe de test est disponible à la date du test
  • Planifiez votre test correctement pour assurer qu'il n'entre pas en conflit avec d'autres activités ou tests
  • Confirmez que les scripts de test sont corrects
  • Vérifiez que votre environnement de test est prêt
  • Planifiez d'abord un essai à sec
  • Soyez prêt à arrêter le test si nécessaire
  • Demandez à un transcripteur de prendre des notes
  • Remplissez un rapport après action détaillant ce qui a fonctionné et ce qui a échoué
  • Utilisez les résultats recueillis pour mettre à jour votre plan de reprise après incident

Reprise après incident en tant que service (DRaaS)

La reprise après incident en tant que service est une méthode de reprise après incident basée sur le cloud qui a gagné en popularité au fil des ans. En effet, la DRaas réduit les coûts, elle est plus facile à déployer et permet des tests réguliers.

Les tests cloud permettent à votre entreprise d'économiser de l'argent car ils s'exécutent sur une infrastructure partagée. Ils sont également assez flexibles, vous permettant de vous inscrire uniquement aux services dont vous avez besoin, et vous pouvez terminer vos tests de reprise après incident en ne faisant tourner que des instances temporaires.

Les attentes et exigences de DRaaS sont documentées et contenues dans un contrat de niveau de service (SLA). Le fournisseur tiers fournit ensuite un basculement vers son environnement de cloud computing, soit au paiement à l'utilisation, soit via un contrat.

Cependant, la reprise après incident basée sur le cloud peut ne pas être disponible après des catastrophes à grande échelle, car le site de reprise après incident peut ne pas avoir suffisamment d'espace pour exécuter les applications de chaque utilisateur. De plus, comme la reprise après incident cloud augmente les besoins en bande passante, l'ajout de systèmes complexes pourrait dégrader les performances de l'ensemble du réseau.

Le plus gros inconvénient de la reprise après incident cloud est peut-être que vous avez peu de contrôle sur le processus ; ainsi, vous devez faire confiance à votre fournisseur de services pour mettre en place le plan de reprise après incident en cas d'incident tout en atteignant les objectifs de point de récupération et de temps de récupération définis.

Les coûts varient considérablement d'un fournisseur à l'autre et peuvent s'additionner rapidement si le fournisseur facture en fonction de la consommation de stockage ou de la bande passante du réseau. Par conséquent, avant de sélectionner un fournisseur, vous devez effectuer une évaluation interne approfondie pour déterminer vos besoins de reprise après incident.

Voici quelques questions à poser au fournisseur potentiel :

  • Comment votre DRaaS fonctionnera-t-elle sur la base de notre infrastructure existante ?
  • Comment s'intégrera-t-elle avec nos plates-formes de reprise après incident et de sauvegarde existantes ?
  • Comment les utilisateurs accèdent-ils aux applications internes ?
  • Que se passe-t-il si vous n'êtes pas en mesure de fournir un service de reprise après incident dont nous avons besoin ?
  • Combien de temps pouvons-nous fonctionner dans votre datacenter après un sinistre ?
  • Quelles sont vos procédures de restauration ?
  • Quel est votre processus de test ?
  • Soutenez-vous l'évolutivité ?
  • Comment facturez-vous votre service de reprise après incident ?

Sites de reprise après incident

Un site de reprise après incident vous permet de récupérer et de restaurer votre infrastructure technologique et vos opérations lorsque votre datacenter principal n'est pas disponible. Ces sites peuvent être internes ou externes.

En tant qu'organisation, vous êtes responsable de la mise en place et de la maintenance d'un site de reprise après incident interne. Ces sites sont nécessaires pour les entreprises ayant des RTO agressifs et des besoins en informations importants. Certaines considérations à prendre en compte lors de la construction de votre site de reprise interne sont la configuration matérielle, la maintenance électrique, l'équipement de support, la conception de l'agencement, le chauffage et le refroidissement, l'emplacement et le personnel.

Bien que beaucoup plus cher qu'un site externe, un site de reprise après incident interne vous permet de contrôler tous les aspects du processus de reprise après incident.

Les sites externes sont détenus et exploités par des fournisseurs tiers. Ils peuvent être :

  • Chaud : il s'agit d'un datacenter entièrement fonctionnel avec du matériel et des logiciels, du personnel 24 h/24, ainsi que des données sur le personnel et les clients.
  • Tiède : il s'agit d'un data center équipé sans données client. Les clients peuvent installer des équipements supplémentaires ou introduire des données client.
  • Froid : il a l'infrastructure en place pour prendre en charge les données et systèmes informatiques. Cependant, il n'a aucune technologie jusqu'à ce que les organisations clientes activent les plans de reprise après incident et installent l'équipement. Il vient parfois compléter les sites chauds et tièdes lors d'incidents à long terme.

Niveaux de reprise après incident

Dans les années 80, deux entités, le comité de pilotage technique SHARE et International Business Machines (IBM) ont mis au point un système de niveaux pour décrire les niveaux de service de reprise après incident. Le système présentait la capacité de reprise hors site, le niveau 0 représentant la moins bonne et le niveau 6 la meilleure.

Un septième niveau a été ajouté par la suite pour inclure l'automatisation de la reprise après incident. Aujourd'hui, il représente le plus haut niveau de disponibilité dans les scénarios de reprise après incident. Généralement, à mesure que la capacité de reprise s'améliore avec chaque niveau, le coût augmente également.

Conclusion

La préparation à un sinistre n'est pas facile. Cela nécessite une approche globale qui prend tout en compte et englobe les logiciels, le matériel, l'équipement réseau, la connectivité, l'alimentation et les tests qui garantissent que la reprise après incident est réalisable conformément aux objectifs RPO et RTO. Bien que la mise en œuvre d'un plan de reprise après incident approfondi et réalisable ne soit pas une tâche facile, ses avantages potentiels sont importants.

Tout le monde dans votre entreprise doit être au courant de tout plan de reprise après incident mis en place, et lors de la mise en œuvre, une communication efficace est essentielle. Il est impératif que vous développiez non seulement un plan de reprise après incident, mais aussi que vous le testiez, que vous formiez votre personnel, que vous documentiez tout correctement et que vous l'amélioriez régulièrement. Enfin, soyez prudent lorsque vous faites appel aux services d'un fournisseur tiers.

Besoin d'un plan de reprise après incident de niveau entreprise pour votre organisation ? Veritas peut vous aider. Contactez-nous dès maintenant pour recevoir un appel d'un de nos représentants.

La gamme Veritas fournit tous les outils dont vous avez besoin pour une entreprise résiliente. Des micro-sinistres quotidiens à un événement sans précédent, Veritas vous protège à grande échelle. En savoir plus sur la résilience des données.