Skip Navigation

Opération tout cassé

Bonjour à tous,

suite à des problèmes d'instabilité, venant d'une utilisation à 100% du disque et à un alerting qui ne fonctionnait malheureusement plus, j'ai été obligé de mettre l'instance offline pour une durée d'environ 48h de manière soudaine et impromptue.

L'instance fonctionne dorénavant avec un stockage d'images sur s3, un service tiers géré par Wasabi, au lieu d'un stockage sur le serveur lui même.

Après une phase de vérification que tout re-fonctionne, je procéderais dans la foulée à la MAJ de l'instance vers la dernière version d'ici quelques heures.

--

Pour le post mortem à destination de ceux que ça intéresse :

Lemmy stocke par défaut les miniatures et images fédérées via toutes les instances en local.

À la création de l'instance, la place donnée par les créateurs de lemmy nécessaire au bon fonctionnement d'une instance était aux alentours de 40gb.

À partir de cette information, j'ai dimensionné l'instance avec ce qu'on peut considérer être un petit disque, mais en RAID pour pouvoir être plus rapide, d'une taille d'environ 500gb, donnant tout de même une marge de x10 par rapport aux specs demandées.

Il s'avère qu'avec l'essor de lemmy et sa popularité, le stockage d'image prend maintenant aux alentours des 350gb, pour environ 3 500 000 objets, saturant ainsi l'espace disque et rendant l'instance instable.

Ceci arrivant bien évidemment la veille de mes vacances loin de chez moi, j'ai tenté de faire un peu de place avant de partir, mais cela n'a pas été suffisant.

Afin de pouvoir avoir un peu de marge de manœuvre à mon retour, j'ai dû faire encore une fois le ménage et tout couper pour garder de l'espace pour pouvoir tout simplement faire quoi que ce soit sur l'instance.

L'opération principale étant la migration de toutes ces images gérées par le service pict-rs de lemmy du disque vers un service cloud, qui a été très laborieux, la version de pict-rs utilisée étant complètement cassée au niveau de la migration.

J'ai donc dû mettre à jour la version de pict-rs et la migration s'est ensuite, a priori, passée sans plus de problème.

Maintenant que l'opération pompier est terminée, je vais profiter des différents ponts pour mettre en place des alertes qui fonctionnent mieux, et tenter de fiabiliser un peu plus l'instance.

-- MAJ du 27/04 à 16h33

La migration vers la version 0.19.11 est maintenant faite, n'hésitez pas à remonter tout problème.

26 comments
  • Merci beaucoup pour le support et le temps investi dans ce message !

    Est-ce qu’il y aurait du sens à ce qu’il y ait plusieurs infogérants pour jlai.lu ? Via une association ?

    • Association ou pas, la question est plus technique et de confiance.

      Une personne qui aura les droits techniques pour faire ce genre d'opération aura aussi les droits pour tuer l'instance ou la casser de manière définitive.

      Mettre en place un système avec des gardes fous avant de donner des clés à quelqu'un est assez compliqué et se rapproche plus de ce qu'on trouve dans des entreprises que dans le cadre de ce genre de service malheureusement.

  • Merci pour les infos :)

    Au final je ferais pas de publi aujourd'hui j'attendrais la maj de lemmy. Tout les images s'affichent. Ya juste le téléversement d'image qui bloque et pe celle qui date de 6 mois..

    Résolu, on est bon pour la maj de Lemmy. :)

26 comments