Un
double incident majeur s'est produit ce lundi 22 mars après-midi.
Le premier s'est produit de 16h28 à 17h55 et a entrainé l'indisponibilité de l'ensemble des sites web hébergés sur l'infrastructure mutualisée Din'Hosting. En cause, le script de monitoring des serveurs web qui s'est emballé et est parti dans une boucle infinie, surchargeant les serveurs web et les faisant tous planter. Le serveur de fichier a également dû être redémarré, et a pu à nouveau être disponible une fois qu'il a eu fini ses tests de vérification des données.
Le second est un effet de bord du 1er. Une fois que les machines ont été indisponibles, le serveur mail a suivi. Lorsque nous avons redémarré ce serveur, le RAID a montré une défaillance et n'a plus permis de démarrer sur les disques durs initiaux. Nous avons donc dû remettre en place les sauvegardes de cette nuit afin de pouvoir faire repartir le tout.
Concrètement, les éléments suivants ont été perdus :
- les mails reçus entre 2h du matin et 16h30
- les graphes de monitoring de la bande passante des serveurs dédiés des 22 et 23 mars
- les modifications effectuées sur le panel de gestion entre 2h du matin et 16h30 (changements de mots de passe, ...)
Les sites web n'ont subit
aucune perte ni altération (ni au niveau des fichiers, ni au niveau des bases de données).
Devant l'ampleur des incidents et à titre de compensation pour la gène occasionnée, nous avons décidé de
prolonger d'un mois tous les hébergements mutualisés.
Nous vous présentons toutes nos excuses et vous assurons que nous avons tout fait pour limiter l'impact de ces deux incidents.