Catégories
Actualité

Incendie datacenter OVH retour d’expérience

Comment nous avons vécu la nuit du 10 mars 2021 lors de l’incendie du datacenter d’OVH à Strasbourg. Quels impacts? Quelles actions nous avons prises? Quelles conséquences pour nos clients?

Phase d’incertitude, levée de doute

Mercredi 10 mars 2021 1h15 à 1h30 les premières alertes de supervision des infrastructures clients et internes arrivent sur la personne d’astreinte. Les alertes indiquent qu’une panne concerne trop de clients différents pour que cela soit un incident spécifique. De première abord nous pensons à un incident réseau sur Strasbourg qui aurait isolé les infrastructures présentes. Pas grandes information en ce sens sur le site d’annonce des maintenances et alertes d’OVH. Nous commençons à rédiger nos tickets au support OVH et ceux pour prévenir nos clients de l’incident détecté en cours d’investiguation.

1h50 les alimentations électriques des datacenters sont coupés, on commence à avoir quelques informations sur un départ de feu sur site sur Twitter. 2h15 quand nous voyons passer les premières photos de l’intervention des pompiers de Strasbourg dans les premières images de presse ou des pompiers nous comprenons qu’avec l’intervention à coup de lance à incendie le site ne redémarrera pas dans les prochains jours même si l’incendie est petit et maîtrisé, car l’eau doit être entièrement purgée pour pouvoir rallumer les alimentations électriques.

Plan de Reprise d’Activité déclenché en condition réelle

2h20 nous prenons la décision de déclencher notre Plan de Reprise d’Activité pour nos clients impactés. Cette fois-ci ce n’est plus un exercice, on s’entraîne mensuellement et on maintient tout le nécessaire pour ce genre de situation dramatique, c’est le moment de prouver que tout fonctionne.

Comme nous testons mensuellement la réinstallation complète de chaque serveur de nos clients et de nos infrastructures, nous savons dans la liste des serveurs impactés, le temps nécessaire à la restauration complète de ces systèmes mesuré le mois précédent.

Nous commençons donc par les serveurs les plus long à restaurer afin de ne pas dépasser la Garantie de Temps de Rétablissement (GTR) souscrite par nos clients. Comme cette procédure est en très grande partie automatisée et peaufiné tous les mois, nous pouvons lancer une restauration et passer rapidement à un autre serveur en parallèle. C’est ainsi qu’en quelques dizaines de minutes, l’ensemble des serveurs devant être restauré ont leurs procédures lancés.

Discussion Twitter d'Octave Klaba demandant d'activé le Disaster Recovery Plan / Plan de Reprise d'Activité et un client répondant comment s'active cette option.
Un client demande comment activer l’option de Plan de Reprise d’Activité sur les offres OVH alors que ce sont des procédures de secours hors site qu’il faut avoir prévu à l’avance.

Lorsque Octave Klaba le fondateur d’OVH annonce à 3h42 qu’il recommande aux clients de déclencher leurs « Disaster Recovery Plan », nous avons déjà fini de restaurer plusieurs serveurs.

Fin d’intervention restauration PRA

6h40 tout est restauré et fonctionnel, voilà en moins de 4h40 tout est à nouveau fonctionnel.

Avant même que nos clients ne se rendent compte du grave problème survenu cette nuit, nous avons fini de restaurer l’ensemble des serveurs de nos clients sur d’autres hébergements en propre sur notre infrastructure ou sur d’autres hébergeurs européens en fonction des prérequis des différentes infrastructures.

Malgré la perte d’un de nos serveurs de sauvegarde sur ce site, nous avons pu assurer la restauration complète et sans perte des infrastructures de nos clients. Tout ce travail depuis des années pour répéter mensuellement les procédures pour faire repartir de zéro une infrastructure client a servi en condition réelle.

Bilan de la gestion de l’incendie OVH

Quels sont les impacts mesurés?

  • perte totale de serveurs, d’autres arrêtés suite à la coupure électrique
  • perte d’un pool de sauvegarde sur ce site
  • interface d’administration d’OVH non joignable pendant 2 jours après le début de l’incendie, empêchant toute commande / réglage dns
  • un seul client n’avait pas prit l’option de sauvegarde avec nous, il n’a pas été en mesure de nous passer une sauvegarde fonctionnelle de ces données, il a perdu tout un site internet

Quels ont été les mesures appliquées?

  • déclenchement rapide du Plan de Reprise d’Activité
  • la personne d’astreinte a pu gérer seul l’ensemble des dizaines de restaurations
  • les procédures se sont révélées fonctionnelles et les vitesses de restauration conformes aux tests déjà réalisés malgré la perte de capacité de restauration
  • la disponibilité de l’hébergement DNS Multi-Cloud a permis de migrer les services vers leurs nouveaux hébergement sans dépendre du manager d’OVH indisponible

Les client ont été tenu informé du fait qu’ils étaient impactés et sur quels services, que nous les avions restauré ailleurs et qu’au moment de leur début de journée de travail tous leurs services étaient de nouveau fonctionnels.

Nous regrettons la perte des données du seul client qui n’a pas souhaité souscrire à notre service de sauvegarde, cela nous conforte dans l’idée qu’une sauvegarde doit être testée pour être considérée comme valide. Une sauvegarde en copiant les fichiers et une base de donnée de temps en temps n’est pas une sauvegarde fonctionnelle et ne peut pas garantir un redémarrage rapide.

Nous avons en tous les cas pu admirer les équipes d’OVH à l’œuvre pour faire repartir rapidement les serveurs qui le pouvait encore et pour avoir été très transparent sur ce qu’il se passait sur site. Néanmoins, même si nous le savions depuis une visite sur Roubaix quelques années plus tôt, les clients d’OVH ne sont pas informés de l’absence de systèmes d’extinction d’incident dans leurs datacentres. La recherche du meilleur prix ne peut se faire qu’au détriment de fonctionnalités et sécurités, il faut savoir composer avec et si une économie est réalisée sur des offres OVH, elle doit permettre de mettre plus de garanties et de moyens sur une solution Multi-Cloud et des sauvegardes fiables et testées mensuellement.