{"id":2769,"date":"2021-07-06T00:43:47","date_gmt":"2021-07-05T22:43:47","guid":{"rendered":"https:\/\/www.digdeo.fr\/articles\/?p=2769"},"modified":"2022-12-23T10:44:49","modified_gmt":"2022-12-23T09:44:49","slug":"incendie-datacenter-ovh-retour-experience","status":"publish","type":"post","link":"https:\/\/www.digdeo.fr\/articles\/actualite\/incendie-datacenter-ovh-retour-experience","title":{"rendered":"Incendie datacenter OVH retour d&rsquo;exp\u00e9rience"},"content":{"rendered":"\n<p>Comment nous avons v\u00e9cu la nuit du 10 mars 2021 lors de l&rsquo;incendie du datacenter d&rsquo;OVH \u00e0 Strasbourg. Quels impacts? Quelles actions nous avons prises? Quelles cons\u00e9quences pour nos clients?<\/p>\n\n\n\n\n\n\n\n<h2 class=\"wp-block-heading\">Phase d&rsquo;incertitude, lev\u00e9e de doute<\/h2>\n\n\n\n<p>Mercredi 10 mars 2021 1h15 \u00e0 1h30 les premi\u00e8res alertes de supervision des infrastructures clients et internes arrivent sur la personne d&rsquo;astreinte. Les alertes indiquent qu&rsquo;une panne concerne trop de clients diff\u00e9rents pour que cela soit un incident sp\u00e9cifique. De premi\u00e8re abord nous pensons \u00e0 un incident r\u00e9seau sur Strasbourg qui aurait isol\u00e9 les infrastructures pr\u00e9sentes. Pas grandes information en ce sens sur le site d&rsquo;annonce des <a href=\"http:\/\/travaux.ovh.com\/\" data-type=\"URL\" data-id=\"http:\/\/travaux.ovh.com\/\" rel=\"nofollow\">maintenances et alertes d&rsquo;OVH<\/a>. Nous commen\u00e7ons \u00e0 r\u00e9diger nos tickets au support OVH et ceux pour pr\u00e9venir nos clients de l&rsquo;incident d\u00e9tect\u00e9 en cours d&rsquo;investiguation.<\/p>\n\n\n\n<p>1h50 les alimentations \u00e9lectriques des datacenters sont coup\u00e9s, on commence \u00e0 avoir quelques informations sur un d\u00e9part de feu sur site sur Twitter. 2h15 quand nous voyons passer les premi\u00e8res photos de l&rsquo;intervention des pompiers de Strasbourg dans les premi\u00e8res images de presse ou des pompiers nous comprenons qu&rsquo;avec l&rsquo;intervention \u00e0 coup de lance \u00e0 incendie le site ne red\u00e9marrera pas dans les prochains jours m\u00eame si l&rsquo;incendie est petit et ma\u00eetris\u00e9, car l&rsquo;eau doit \u00eatre enti\u00e8rement purg\u00e9e pour pouvoir rallumer les alimentations \u00e9lectriques.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Plan de Reprise d&rsquo;Activit\u00e9 d\u00e9clench\u00e9 en condition r\u00e9elle<\/h2>\n\n\n\n<p>2h20 nous prenons la d\u00e9cision de d\u00e9clencher notre Plan de Reprise d&rsquo;Activit\u00e9 pour nos clients impact\u00e9s. Cette fois-ci ce n&rsquo;est plus un exercice, on s&rsquo;entra\u00eene mensuellement et on maintient tout le n\u00e9cessaire pour ce genre de situation dramatique, c&rsquo;est le moment de prouver que tout fonctionne.<\/p>\n\n\n\n<p>Comme nous testons mensuellement la r\u00e9installation compl\u00e8te de chaque serveur de nos clients et de nos infrastructures, nous savons dans la liste des serveurs impact\u00e9s, le temps n\u00e9cessaire \u00e0 la restauration compl\u00e8te de ces syst\u00e8mes mesur\u00e9 le mois pr\u00e9c\u00e9dent.<\/p>\n\n\n\n<p>Nous commen\u00e7ons donc par les serveurs les plus long \u00e0 restaurer afin de ne pas d\u00e9passer la Garantie de Temps de R\u00e9tablissement (GTR) souscrite par nos clients. Comme cette proc\u00e9dure est en tr\u00e8s grande partie automatis\u00e9e et peaufin\u00e9 tous les mois, nous pouvons lancer une restauration et passer rapidement \u00e0 un autre serveur en parall\u00e8le. C&rsquo;est ainsi qu&rsquo;en quelques dizaines de minutes, l&rsquo;ensemble des serveurs devant \u00eatre restaur\u00e9 ont leurs proc\u00e9dures lanc\u00e9s.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"711\" height=\"404\" src=\"https:\/\/www.digdeo.fr\/articles\/wp-content\/uploads\/2021\/07\/incendie-OVH-Strasbourg-Plan-Reprise-Activite-option.png\" alt=\"Discussion Twitter d'Octave Klaba demandant d'activ\u00e9 le Disaster Recovery Plan \/ Plan de Reprise d'Activit\u00e9 et un client r\u00e9pondant comment s'active cette option.\" class=\"wp-image-2770\" title=\"Un client qui pense qu'il faut activer une option pour faire un PRA\" srcset=\"https:\/\/www.digdeo.fr\/articles\/wp-content\/uploads\/2021\/07\/incendie-OVH-Strasbourg-Plan-Reprise-Activite-option.png 711w, https:\/\/www.digdeo.fr\/articles\/wp-content\/uploads\/2021\/07\/incendie-OVH-Strasbourg-Plan-Reprise-Activite-option-300x170.png 300w\" sizes=\"auto, (max-width: 711px) 100vw, 711px\" \/><figcaption class=\"wp-element-caption\">Un client demande comment activer l&rsquo;option de Plan de Reprise d&rsquo;Activit\u00e9 sur les offres OVH alors que ce sont des proc\u00e9dures de secours hors site qu&rsquo;il faut avoir pr\u00e9vu \u00e0 l&rsquo;avance.<\/figcaption><\/figure>\n\n\n\n<p>Lorsque Octave Klaba le fondateur d&rsquo;OVH annonce \u00e0 3h42 qu&rsquo;il recommande aux clients de d\u00e9clencher leurs \u00ab\u00a0Disaster Recovery Plan\u00a0\u00bb, nous avons d\u00e9j\u00e0 fini de restaurer plusieurs serveurs.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Fin d&rsquo;intervention restauration PRA<\/h2>\n\n\n\n<p>6h40 tout est restaur\u00e9 et fonctionnel, voil\u00e0 en moins de 4h40 tout est \u00e0 nouveau fonctionnel.<\/p>\n\n\n\n<p>Avant m\u00eame que nos clients ne se rendent compte du grave probl\u00e8me survenu cette nuit, nous avons fini de restaurer l&rsquo;ensemble des serveurs de nos clients sur d&rsquo;autres h\u00e9bergements en propre sur notre infrastructure ou sur d&rsquo;autres h\u00e9bergeurs europ\u00e9ens en fonction des pr\u00e9requis des diff\u00e9rentes infrastructures.<\/p>\n\n\n\n<p>Malgr\u00e9 la perte d&rsquo;un de nos serveurs de sauvegarde sur ce site, nous avons pu assurer la restauration compl\u00e8te et sans perte des infrastructures de nos clients. Tout ce travail depuis des ann\u00e9es pour r\u00e9p\u00e9ter mensuellement les proc\u00e9dures pour faire repartir de z\u00e9ro une infrastructure client a servi en condition r\u00e9elle.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Bilan de la gestion de l&rsquo;incendie OVH<\/h2>\n\n\n\n<p>Quels sont les impacts mesur\u00e9s?<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>perte totale de serveurs, d&rsquo;autres arr\u00eat\u00e9s suite \u00e0 la coupure \u00e9lectrique<\/li>\n\n\n\n<li>perte d&rsquo;un pool de sauvegarde sur ce site<\/li>\n\n\n\n<li>interface d&rsquo;administration d&rsquo;OVH non joignable pendant 2 jours apr\u00e8s le d\u00e9but de l&rsquo;incendie, emp\u00eachant toute commande \/ r\u00e9glage dns<\/li>\n\n\n\n<li>un seul client n&rsquo;avait pas prit l&rsquo;option de sauvegarde avec nous, il n&rsquo;a pas \u00e9t\u00e9 en mesure de nous passer une sauvegarde fonctionnelle de ces donn\u00e9es, il a perdu tout un site internet<\/li>\n<\/ul>\n\n\n\n<p>Quels ont \u00e9t\u00e9 les mesures appliqu\u00e9es?<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>d\u00e9clenchement rapide du Plan de Reprise d&rsquo;Activit\u00e9<\/li>\n\n\n\n<li>la personne d&rsquo;astreinte a pu g\u00e9rer seul l&rsquo;ensemble des dizaines de restaurations<\/li>\n\n\n\n<li>les proc\u00e9dures se sont r\u00e9v\u00e9l\u00e9es fonctionnelles et les vitesses de restauration conformes aux tests d\u00e9j\u00e0 r\u00e9alis\u00e9s malgr\u00e9 la perte de capacit\u00e9 de restauration<\/li>\n\n\n\n<li>la disponibilit\u00e9 de l&rsquo;h\u00e9bergement DNS Multi-Cloud a permis de migrer les services vers leurs nouveaux h\u00e9bergement sans d\u00e9pendre du manager d&rsquo;OVH indisponible<\/li>\n<\/ul>\n\n\n\n<p>Les client ont \u00e9t\u00e9 tenu inform\u00e9 du fait qu&rsquo;ils \u00e9taient impact\u00e9s et sur quels services, que nous les avions restaur\u00e9 ailleurs et qu&rsquo;au moment de leur d\u00e9but de journ\u00e9e de travail tous leurs services \u00e9taient de nouveau fonctionnels.<\/p>\n\n\n\n<p>Nous regrettons la perte des donn\u00e9es du seul client qui n&rsquo;a pas souhait\u00e9 souscrire \u00e0 notre service de sauvegarde, cela nous conforte dans l&rsquo;id\u00e9e qu&rsquo;une sauvegarde doit \u00eatre test\u00e9e pour \u00eatre consid\u00e9r\u00e9e comme valide. Une sauvegarde en copiant les fichiers et une base de donn\u00e9e de temps en temps n&rsquo;est pas une sauvegarde fonctionnelle et ne peut pas garantir un red\u00e9marrage rapide.<\/p>\n\n\n\n<p>Nous avons en tous les cas pu admirer les \u00e9quipes d&rsquo;<a href=\"https:\/\/www.digdeo.fr\/articles\/actualite\/vps-ovh-cloud\" data-type=\"post\" data-id=\"3370\">OVH<\/a> \u00e0 l\u2019\u0153uvre pour faire repartir rapidement les serveurs qui le pouvait encore et pour avoir \u00e9t\u00e9 tr\u00e8s transparent sur ce qu&rsquo;il se passait sur site. N\u00e9anmoins, m\u00eame si nous le savions depuis une visite sur Roubaix quelques ann\u00e9es plus t\u00f4t, les clients d&rsquo;OVH ne sont pas inform\u00e9s de l&rsquo;absence de syst\u00e8mes d&rsquo;extinction d&rsquo;incident dans leurs datacentres. La recherche du meilleur prix ne peut se faire qu&rsquo;au d\u00e9triment de fonctionnalit\u00e9s et s\u00e9curit\u00e9s, il faut savoir composer avec et si une \u00e9conomie est r\u00e9alis\u00e9e sur des offres OVH, elle doit permettre de mettre plus de garanties et de moyens sur une solution Multi-Cloud et des sauvegardes fiables et test\u00e9es mensuellement.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Comment nous avons v\u00e9cu la nuit du 10 mars 2021 lors de l&rsquo;incendie du datacenter d&rsquo;OVH \u00e0 Strasbourg. Quels impacts? Quelles actions nous avons prises? Quelles cons\u00e9quences pour nos clients?<\/p>\n","protected":false},"author":2,"featured_media":2999,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[31],"tags":[45,28,44,36],"class_list":["post-2769","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-actualite","tag-alertes","tag-infrastructure-cloud","tag-ovh","tag-securite"],"_links":{"self":[{"href":"https:\/\/www.digdeo.fr\/articles\/wp-json\/wp\/v2\/posts\/2769","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.digdeo.fr\/articles\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.digdeo.fr\/articles\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.digdeo.fr\/articles\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.digdeo.fr\/articles\/wp-json\/wp\/v2\/comments?post=2769"}],"version-history":[{"count":2,"href":"https:\/\/www.digdeo.fr\/articles\/wp-json\/wp\/v2\/posts\/2769\/revisions"}],"predecessor-version":[{"id":3374,"href":"https:\/\/www.digdeo.fr\/articles\/wp-json\/wp\/v2\/posts\/2769\/revisions\/3374"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.digdeo.fr\/articles\/wp-json\/wp\/v2\/media\/2999"}],"wp:attachment":[{"href":"https:\/\/www.digdeo.fr\/articles\/wp-json\/wp\/v2\/media?parent=2769"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.digdeo.fr\/articles\/wp-json\/wp\/v2\/categories?post=2769"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.digdeo.fr\/articles\/wp-json\/wp\/v2\/tags?post=2769"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}