Scaleway

La version 6.5 d’OpenBSD est sortie hier, le 24 avril 2019. J’ai installé une machine virtuelle de type VC1 chez Scaleway il y a trois ans et je n’ai jamais eu de problème jusqu’à présent, en redémarrant tous les six mois sur la dernière version. J’ai donc voulu faire de même avec cette 6.5 en suivant le guide de mise à jour manuel, parce que la machine doit se signaler auprès de scaleway sans quoi, elle sera redémarrée automatiquement jusqu’à réception de ce signal. Impossible donc de passer par le noyau d’installation bsd.rd qui prend trop de temps.

Après avoir déroulé les différentes étapes d’installation de l’espace utilisateur, il faut redémarrer sur le nouveau noyau, et là surprise… la machine ne redémarre pas. Dans la console, elle apparaît en cours d’arrêt. Je contacte le support en espérant un rétablissement rapide. Un peu moins d’une heure après, je reçois le courriel suivant :

Hi none none,

Our support team created a new ticket associated to your account.

Dear Cloud Rider,

Your instance 'scw-8333aa' ('e9bcc2a1-48fd-495c-8c0a-201eef394a86') is running on a hypervisor that underwent a critical failure. Unfortunately, we were not able to reboot the hypervisor. As a result, all files located on your local volume could not be recovered and your node has been stopped.

If you made snapshot of this disk or if you halted your node recently, you will be able to recover your disk to the latest stop state.

We strongly encourage you to snaphot your server regulary to ensure you have a recent version of your files on your server.  The Hot Snapshots feature which enables making snapshots while the **instance is in production** is now available on all our Virtual Cloud Servers: https://www.scaleway.com/docs/backup-your-data-with-snapshots/.

We apologize for the inconvenience and remain available for any question you may have.

Scaleway Team

Malheureusement, ma tentative de redémarrage ne se traduit pas par un arrêt et la totalité du volume local est donc perdue. J’ai quand même essayé en vain de démarrer l’instance sur un nouvel hyperviseur puisque c’est possible même si ce type de serveurs n’est plus commercialisé ou d’utiliser le volume sur une autre machine mais peine perdue. Plusieurs enseignements :

  • un volume, c’est pratique, ça se ballade facilement mais c’est toujours un disque qui peut péter
  • l’agilité des plateformes d’infrastructure as a service n’est pas magique et pas forcément adapatée à tous les cas d’usage
  • il ne faut pas hésiter à utiliser les outils de sauvegarde de ces plateformes
  • il faut faire des sauvegardes
  • il faut faire des sauvegardes fréquentes