Les pannes pluriquotidiennes sont de plus en plus inévitables

La situation est la suivante : les pannes de plusieurs jours ne sont plus rares. En fait, elles font de plus en plus partie du jeu des entreprises modernes, que cela nous plaise ou non. Plus votre infrastructure est numérique, plus vous courez de risques. Il se peut que vous exploitiez des systèmes 24 heures sur 24 et 7 jours sur 7 sur des réseaux mondiaux. Vous dépendez peut-être d’API, de services cloud ou de plateformes tierces intégrées. Et si l’une d’entre elles tombe en panne, intentionnellement ou non, vous perdez de l’argent à chaque minute.

La dure réalité ? Selon Oxford Economics, les entreprises perdent déjà environ 400 milliards de dollars par an dans le monde en raison de temps d’arrêt non planifiés. Tel est le coût réel de l’inertie. Rester les bras croisés en espérant que les choses ne tournent pas mal n’est plus une option responsable. Qu’elles soient dues à des pépins logiciels, à des cyberattaques ou à des pannes de courant, ces pannes peuvent gravement perturber les revenus, la confiance des clients et la crédibilité de la marque.

Pour les responsables de haut niveau, il s’agit d’un appel à aller au-delà des plans de reprise après sinistre de base. Vous avez besoin de plans de continuité complets, conçus pour faire face à une panne de plusieurs jours. Ceux qui survivront et prospéreront seront ceux qui aborderont la gestion des risques avec une planification précise et une exécution rapide. C’est là que l’agilité nourrit la résilience. Si votre entreprise peut se rétablir plus rapidement que ses concurrents, vous gagnez.

Les pannes pluriquotidiennes peuvent avoir plusieurs causes

Les pannes ne sont pas toujours des cyberattaques dramatiques tirées d’intrigues cinématographiques. Oui, en 2023, MGM Resorts a été durement touché par une attaque de ransomware menée par des groupes tels que Scattered Spider et ALPHV, qui a tout désactivé, des machines à sous du casino à l’accès aux chambres mobiles. Mais il ne s’agit là que d’un type de panne. La panne de CrowdStrike en juillet 2024 n’était pas criminelle. Il s’agissait d’une simple erreur de mise à jour du logiciel. Néanmoins, cette erreur a provoqué des interruptions de service à l’échelle mondiale dans tous les secteurs d’activité.

Vos systèmes peuvent également être des dommages collatéraux. Prenez l’exemple de Capital One et de plusieurs autres entreprises, qui ont été mises hors service pendant plusieurs jours parce que leur fournisseur, Fidelity Information Services (FIS), a été victime d’une panne de courant et d’une défaillance matérielle. L’impact a été considérable, tant pour les entreprises que pour les clients. Il en va de même pour McDonald’s, où un changement de configuration de la part d’un tiers a provoqué une panne mondiale.

Ces exemples montrent clairement une chose : même si vous faites tout ce qu’il faut en interne, votre risque est lié à des entités que vous ne contrôlez pas. Les infrastructures étant de plus en plus interconnectées, votre maillon le plus faible se trouve souvent à l’extérieur de votre pare-feu. C’est pourquoi la gestion des risques liés aux fournisseurs est une stratégie opérationnelle essentielle.

Une préparation complète et la planification de scénarios sont inestimables

La préparation l’emporte toujours sur le recul. Lorsque des pannes majeures surviennent, et elles surviendront, les entreprises qui se rétablissent rapidement sont celles qui ont déjà fait leurs devoirs. Une bonne préparation aux incidents doit être très large et faire appel à l’ingénierie, à la sécurité, au service juridique, aux opérations et à la communication. La collaboration multidisciplinaire est la base d’un plan de continuité sérieux.

Votre cahier des charges doit aller au-delà des listes de contrôle. Les exercices de routine sur table sont essentiels. Ils permettent aux équipes dirigeantes de tester leurs hypothèses et leur calendrier. Vous vous préparez à ce qui est perturbant et inattendu. C’est ce que Sebastian Straub, architecte principal de solutions chez N2WS, veut dire lorsqu’il parle du facteur « cygne noir ». Vous ne pouvez pas vous préparer à toutes les défaillances spécifiques, mais vous pouvez construire un système qui s’adapte lorsqu’une balle courbe se présente.

L’objectif est de renforcer la capacité de réaction à tous les niveaux de l’organisation. C’est une préparation sur laquelle vous pouvez agir.

L’efficacité de la réponse aux incidents dépend du leadership

Lorsque les systèmes tombent en panne, votre équipe n’a pas des heures pour s’organiser. Elle n’a que quelques minutes pour s’exécuter. C’est pourquoi le leadership de la réponse et la structure de communication doivent déjà être verrouillés, avant que les problèmes ne commencent. Quentin Rhoads-Herrera, directeur principal des plateformes de cybersécurité chez Stratascale, le dit simplement : chaque entreprise a besoin d’un commandant d’incident clair pour prendre la direction des opérations en cas de crise.

Ce leader est responsable du flux de décisions et de la coordination, et s’assure que toutes les équipes concernées, de l’infrastructure à la direction générale, sont activées. Tout retard dans le lancement de l’alerte initiale crée de la confusion et fait perdre un temps précieux. Comme le souligne Sebastian Straub, trop d’équipes hésitent à lancer l’alerte suffisamment tôt. Cette lacune précoce est souvent à l’origine d’une situation qui échappe à tout contrôle.

La hiérarchie est importante, non pas pour le contrôle, mais pour la rapidité. Chacun doit savoir à qui il doit rendre compte et quelles sont ses responsabilités en cas de pression. Si votre personnel attend que les choses soient claires alors que les systèmes sont défaillants, vous êtes déjà en retard. C’est pourquoi la clarté des rôles ne doit pas être ambiguë ou laissée à l’interprétation lorsque la panne survient.

La structure de commandement en cas d’incident et les mécanismes d’escalade rapide relèvent de l’architecture de survie de l’entreprise.

Une communication cohérente est vitale mais difficile

La communication en situation de stress est un domaine dans lequel de nombreuses entreprises échouent. Lorsque les systèmes sont en panne et que les informations sont incomplètes, il est facile de retarder la transmission des messages ou, pire, de dire la mauvaise chose. Or, la clarté, la rapidité et la cohérence de la communication sont essentielles pour maintenir la confiance des clients, des investisseurs et des équipes internes pendant une panne de plusieurs jours.

Eric Schmitt, RSSI mondial chez Sedgwick, souligne que la communication est souvent l’un des points faibles de ces scénarios. Vous avez besoin d’un message qui reflète ce que vous savez, reconnaît ce que vous ne savez pas et s’engage fermement à partager plus d’informations dès qu’elles seront disponibles. Cela demande de la discipline et de la préparation.

Quentin Rhoads-Herrera, directeur principal des plateformes de cybersécurité chez Stratascale, renforce cette idée : la transparence, associée à un langage précis, permet de gagner la confiance, même lorsque vous annoncez de mauvaises nouvelles. Un message vague ou incohérent nuit à la crédibilité. Mais lorsque vous intégrez à l’avance la communication dans les plans de réponse aux incidents, en impliquant les équipes juridiques et de relations publiques, il est plus facile de faire mouche sous la pression.

Les cadres supérieurs doivent diriger cette fonction et s’assurer qu’elle n’est pas déléguée à un échelon trop bas de l’organisation. Que vous communiquiez toutes les quelques heures ou une fois par jour, le rythme et le ton sont importants. Vous n’avez pas besoin de tout révéler, mais vous devez montrer que vous êtes responsable et que vous contrôlez la situation.

Soutenir le personnel pendant les arrêts à haute pression

Les pannes de plusieurs jours mettent à l’épreuve à la fois les systèmes et les personnes. Les interventions prolongées en cas d’incident sont souvent synonymes de longues périodes de travail, de routines perturbées et d’un environnement très stressant où les décisions sont lourdes de conséquences. Si vous ne gérez pas l’énergie de l’équipe, l’attention diminue et les erreurs s’ensuivent.

Les dirigeants doivent contrôler le nombre d’heures travaillées, imposer des pauses et faire tourner les équipes lorsque cela est possible. Ignorer les signes avant-coureurs, la fatigue, l’épuisement professionnel ou le stress, c’est risquer plus que le moral. Cela compromet la capacité à penser clairement et à agir de manière décisive lors d’une reprise d’activité à fort enjeu.

Quentin Rhoads-Herrera a donné l’exemple concret d’une entreprise qui a bien réagi : elle a installé son personnel dans des hôtels à proximité, a fourni des repas et a fait tourner les équipes. Pas d’avantages particuliers, juste une préparation de base pour soutenir une équipe ciblée.

Les cadres doivent créer une culture dans laquelle les gens se sentent en sécurité lorsqu’ils reconnaissent la pression et lèvent la main lorsqu’ils ont besoin d’une pause. Il s’agit également de définir les attentes : il est préférable de mettre à jour les petits problèmes dès le début que de les dissimuler et d’en créer d’autres plus importants par la suite. Les gens donnent le meilleur d’eux-mêmes lorsqu’ils savent que les dirigeants les soutiennent, non seulement lorsque les choses vont bien, mais surtout lorsqu’elles ne vont pas bien.

Les analyses systématiques transforment les pannes en opportunités d’apprentissage

Une fois la panne terminée, trop d’entreprises passent à autre chose sans prendre le temps d’examiner ce qui s’est réellement passé. C’est une erreur. Les analyses rétrospectives ne servent pas à blâmer, mais à comprendre et à améliorer. Les enseignements que vous tirez d’un examen structuré et honnête peuvent directement renforcer vos systèmes, vos équipes et votre prochaine intervention.

Sebastian Straub, architecte principal de solutions chez N2WS, est clair sur ce point : éviter ou minimiser le problème à la racine ne fait qu’affaiblir votre position future. Les équipes doivent examiner exactement ce qui n’a pas fonctionné, ce qui a fonctionné et ce qui s’est brisé sous la pression. Tous les éléments de la réponse, de la remédiation technique à la communication, doivent être mis sur la table.

Quentin Rhoads-Herrera, directeur principal des plateformes de cybersécurité chez Stratascale, souligne l’importance de l’analyse factuelle. Cela signifie qu’il faut rassembler et présenter des preuves tangibles, des calendriers, des actions d’équipe et des points de décision sans filtrer ni déformer le récit. C’est là que la direction joue un rôle essentiel, en créant un espace où les gens peuvent être transparents sans craindre de conséquences personnelles ou politiques.

Pour les dirigeants de la suite C, l’analyse rétrospective est votre meilleur outil pour une évolution opérationnelle continue. Il oblige la planification à s’adapter et à évoluer. Si vous sautez cette étape, vous risquez de répéter les mêmes échecs lors du prochain incident. Prenez l’habitude, documentez les résultats, mettez à jour les plans et avancez plus fort. C’est ainsi que la résilience devient une réalité.

Le risque de pannes récurrentes sur plusieurs jours s’accroît

Les risques de panne augmentent rapidement. De plus en plus d’entreprises dépendent désormais de fournisseurs tiers dans toutes les fonctions, cloud, paiements, logistique, données. Chacun de ces partenaires est un point de défaillance potentiel. Lorsque l’un d’entre eux tombe en panne, les effets peuvent se répercuter sur l’ensemble des secteurs d’activité. Nous l’avons vu avec FIS, CrowdStrike et d’autres acteurs majeurs.

Ajoutez à cela une augmentation des cyberattaques graves et des incidents liés au climat, et la pression sur la fiabilité du temps de fonctionnement ne fait que s’intensifier. Le paysage des menaces évolue. Les chaînes d’approvisionnement sont plus fragiles. Les systèmes conçus pour fonctionner avec un minimum de marge de manœuvre sont désormais exposés d’une manière qui exige une préparation plus sophistiquée.

Du point de vue de la direction, cela signifie qu’il faut financer la continuité de l’activité au-delà de la conformité. Cela signifie qu’il faut repenser le rôle des audits des fournisseurs, des protocoles de sécurité et de la détection des défaillances. Traitez la résilience comme un avantage concurrentiel. Cela signifie qu’il faut renforcer la confiance dans votre capacité à répondre à n’importe quelle situation.

Le bilan

Si vous êtes un dirigeant, votre objectif ne doit pas être d’éviter chaque panne. Ce qui compte, c’est la rapidité et la détermination avec lesquelles votre entreprise peut réagir lorsque les choses dérapent, ce qui ne manquera pas d’arriver.

Investissez dans la préparation. Non seulement dans les systèmes, mais aussi dans les personnes, la culture et les processus. Élaborez des plans qui fonctionnent dans toutes les disciplines, avec une appropriation claire et une communication rapide. Accompagnez ces plans du soutien dont les équipes ont besoin pour fonctionner sous pression, et continuer à fonctionner pendant des jours s’il le faut.

Les pannes sont des tests de résistance. Elles mettent en évidence les points faibles et les angles morts. Ce sont des données précieuses. Utilisez-les. Tirez-en des enseignements. Ajustez-les. Car les entreprises qui réagissent bien limitent les dégâts et gagnent en confiance, en stabilité et en avantages à long terme.

Vous ne pouvez pas contrôler la date de la prochaine panne. Vous pouvez contrôler votre degré de préparation.

Alexander Procter

avril 28, 2025

11 Min