1and1 Major Outage : l’hébergeur est resté 2 fois down aujourd’hui

[ 2 ] Commentaires
Share

L’hébergeur 1And1 aura eu une dure journée aujourd’hui : par deux fois son réseau de Cloud et de serveurs dédiés est tombé en panne, leur hotline a rapidement été prise d’assaut (et est tombée aussi du coup) ; malgré ça, les utilisateurs n’avaient accès à aucune information sur l’avancement de la résolution de la panne, ni sur les raison de cet arrêt.

J’ai constaté que AbriCoCotier (ainsi que tous les sites hébergés sur ce même serveur virtuel) sont tombés en même temps aujourd’hui, aux alentours de 15h04 (c’est l’heure à laquelle le service de monitoring m’a dit avoir détecté l’état down, mais si ça se trouve, ça faisait déjà quelques minutes que c’était déjà dans cet état là. J’ai d’abord tenté de rebooter mon serveur via l’interface d’administration de 1And1 (le Control Panel), mais celui-ci n’était pas disponible (à chaque fois que je voulais accéder au control panel spécifique à mon serveur, j’avais une Erreur 500…). Donc rapidement, j’ai demandé à @1And1 sur twitter si ils pourraient faire quelque chose pour remettre le control panel up, afin que je puisse redémarrer mes sites.

Un utilisateur de twitter m’a alors communiqué que c’était toute l’infrastructure de 1And1 qui était down. Et effectivement, en suivant les twitts ayant trait à 1And1, je me suis rendu compte que des clients d’Espagne, de Grande Bretagne, d’Allemagne et même des Etats-Unis rapportaient n’avoir plus accès à leurs sites. Le problème semblait spécifique aux serveurs virtuels « Cloud » et aux serveurs dédiés, car les hébergements classiques ne subissaient à priori absolument aucun problème.

Pendant la première heure, la page de status de 1and1 n’affichait aucun message de problème de status « All systems functional ».

Pendant quasiment deux heures, j’ai suivi ce fil Twitter : au début, la majorité des Twitts étaient ceux de startups ou d’entreprises classiques présentant leurs excuses auprès de leurs clients, en leur disant que c’était leur fournisseur, 1And1, qui subissait un Major Outage.

A 16h00 pile, le compte @1and1 a twitté qu’il y avait un problème :

We’re currently experiencing an issue with some servers and internal systems like the control panel. We’re trying to fix this ASAP!

Sur Facebook, ils ont également publié une news à propos de ce Major Outage :

We are currently experiencing an issue with some of our servers. Unfortunately we do not have an estimated time for when the problem will be fixed but we’re working on it.
The control panel is also unreachable or working very slowly at the moment. Our technicians are already fixing this.
We apologize for the inconvenience and will post updates as we have them.

(ils avaient 222 commentaires à 17h00)

La seule info probante aura été celle fournie par @philip_skinner:

@1and1 just spoken to an engineer at 1and1, firewall configuration issue, they are restoring configs now, should be back up in 1.5 hours

Mon serveur a à nouveau été accessible vers 16h57, mais sur le fil Twitter les gens commençaient à constater leurs sites de nouveau Up à partir de 16h52 (je parle en heure Française bien sûr)

Puis progressivement, ça a commencé à gueuler sur l’absence totale d’informations en temps réel de la part de 1And1 :

RT @AndresCarceller: #1and1 social media #fail – 1and1 deleting posts on their facebook page asking about the outage. Why not update us instead? @1and1_ES

L’augmentation de la contestation avait dû être assez forte, car elle a été « repérée » par le service statweestics, qui disait :

@1and1 is getting popular, +800% the last hour : http://t.co/jwuscdZX

Une deuxième fois down dans la soirée

Ce soir, vers 20h00, mon serveur est tombé de nouveau. Tout de suite, j’ai été voir sur Twitter ce qui se disait, et j’ai pu lire de la part de @PixelPrimate :

Just spoke to @1and1 tech support again – said it is the same issue from earlier not fixed fully -was told it would be fixed « very soon » :-/

Le serveur est remonté à 21h29. Par contre, les messages étaient assez virulents sur Twitter ! Les gens déconseillaient massivement d’aller chez 1and1 comme hébergeur !

Sur Facebook, 1And1 semblait avoir tenu davantage les gens informés :

At 2pm EST, a software error caused another network misconfiguration. As a consequence, 1&1 Dedicated and Virtual Servers from our customers are not available on the Internet. The problem affects only customers using a 1&1 dedicated, cloud or virtual server.

Our engineers have identified the source of the problem and are working on a final resolution. We expect the first servers to be back online soon.

The vast majority of customers with hosting packages (shared / Dual Hosting / MyWebsite / Mail) were not affected.

Pareil, sur Twitter, les twitts « se sont réveillés » durant le deuxième problème :

Very sorry, due to this morning’s network issue, some customers are experiencing additional downtime. We are working to resolve ASAP!
Details: At 2pm EST, a software error caused another network misconfiguration.
As a consequence, 1&1 Dedicated and Virtual Servers from our customers are not available on the Internet.
The problem affects only customers using a 1&1 dedicated, cloud or virtual server. (cont.)
Our engineers have identified the source of the problem & are working on a final resolution. We expect the servers to be back online soon.
The vast majority of customers with hosting packages (shared / Dual Hosting / MyWebsite / Mail) were not affected.
Servers are beginning to come back online. If your server is not already back up, it will be available shortly.
The first dedicated and virtual servers are already online. In the next half hour, most servers should be back on the grid.

Bilan

Pour ma part, ce n’était pas une grande perte, vu qu’au départ, je n’ai pas beaucoup de trafic sur mes blogs.

Pour autant, je crois que beaucoup d’entreprises qui avaient tous les oeufs dans le même compte 1And1 vont sérieusement réfléchir à changer de situation.

Je dois dire que je n’ai vraiment pas vu beaucoup de français se plaindre de ce Major Outage aujourd’hui. En tout cas sur Twitter. Je pense que c’est dû au fait qu’en France, OVH reste reste maitre en son pays, et donc peu de clients Français sont chez 1And1 (comparés à d’autres pays comme la Grande Bretagne, en proportion).

Pour le reste, je suis sur Twitter les discussion de Oles Klaba, et je dois dire que lui comme OVH sont plutôt à la pointe en terme de communication de crise ! 1And1 ferait bien de s’inspirer d’eux.

Je ne sais pas si je changerai d’hébergeur, pour ma part : à part aujourd’hui, 1And1 s’est montré chez moi plutôt peu cher et fiable. Je n’ai jamais eu à m’en plaindre jusqu’à aujourd’hui, en fait. Alors que je vous souvent sur le web OVH rapporter des incidents sur ses datacenters (donc j’imagine que leurs clients subissent des problèmes, même s’ils sont correctement informés). Je pense qu’au final ça se vaut, donc je ne vois pas pourquoi je dépenserais de l’argent pour changer !

Et pour ceux qui demandent, voici l’état de la catastrophe sur Analytics :

Vous serez peut-être intéressé :

2 commentaires sur ce billet

  1. Thibault dit :

    Article très intéressant… J’ai moi même eu sur des sites persos deux coupures ce même jours. J’avais été alerté par Woozweb à peu prés aux mêmes heures que toi (15h56 pour ma part). Je me suis douté qu’il y avait un souci chez 1&1 mais en revanche je ne suis pas sur une offre cloud ou serveur dédié dédié.

    Je dispose d’une offre basique d’hébergement. Etrangement, je dispose de plusieurs domaines et sites différents hébergés sur la même offre… pourtant seul un domaine a été impacté par la panne…

    Concernant, OVH vs. 1&1 j’ai toujours utilisé les deux… Quelques fois une panne matérielle chez OVH pour un dédié, mais jamais vraiment eu de soucis chez l’un ou chez l’autre.

    Ce n’est que mon avis bien sûr, mais je ne pense pas que l’un ou l’autre soit moins fiable. En revanche, je pense que OVH est plus transparent dans sa gestion d’incident et d’informations. Il n’y a qu’à comparer le status 1&1 et le Travaux ovh pour se donner une idée du détail d’informations.

    RépondreRépondre
  2. Louis dit :

    @Thibault: Clairement oui, OVH est bien plus transparent.

    Après, je suis d’accord avec toi, je n’ai pas l’impression que 1and1 soit moins stable que OVH (je rajoute que je préfère leur interface de gestion du compte/serveur).

    Pour ce qui est du Major Outage, je crois d’après ce que j’ai lu que c’est une conf Firewall qui a tout planté la connexion de leur Datacenter avec le reste du monde, ce qui fait que les serveurs fonctionnaient correctement pendant ce temps là, mais simplement ils n’étaient plus connectés au reste du réseau. D’où la page de listing des problèmes qui est resté à « All systems fonctionnal », car elle ne prenait pas en compte l’état du réseau.

    RépondreRépondre

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *