Opération tout cassé
Opération tout cassé
Bonjour à tous,
suite à des problèmes d'instabilité, venant d'une utilisation à 100% du disque et à un alerting qui ne fonctionnait malheureusement plus, j'ai été obligé de mettre l'instance offline pour une durée d'environ 48h de manière soudaine et impromptue.
L'instance fonctionne dorénavant avec un stockage d'images sur s3, un service tiers géré par Wasabi, au lieu d'un stockage sur le serveur lui même.
Après une phase de vérification que tout re-fonctionne, je procéderais dans la foulée à la MAJ de l'instance vers la dernière version d'ici quelques heures.
--
Pour le post mortem à destination de ceux que ça intéresse :
Lemmy stocke par défaut les miniatures et images fédérées via toutes les instances en local.
À la création de l'instance, la place donnée par les créateurs de lemmy nécessaire au bon fonctionnement d'une instance était aux alentours de 40gb.
À partir de cette information, j'ai dimensionné l'instance avec ce qu'on peut considérer être un petit disque, mais en RAID pour pouvoir être plus rapide, d'une taille d'environ 500gb, donnant tout de même une marge de x10 par rapport aux specs demandées.
Il s'avère qu'avec l'essor de lemmy et sa popularité, le stockage d'image prend maintenant aux alentours des 350gb, pour environ 3 500 000 objets, saturant ainsi l'espace disque et rendant l'instance instable.
Ceci arrivant bien évidemment la veille de mes vacances loin de chez moi, j'ai tenté de faire un peu de place avant de partir, mais cela n'a pas été suffisant.
Afin de pouvoir avoir un peu de marge de manœuvre à mon retour, j'ai dû faire encore une fois le ménage et tout couper pour garder de l'espace pour pouvoir tout simplement faire quoi que ce soit sur l'instance.
L'opération principale étant la migration de toutes ces images gérées par le service pict-rs de lemmy du disque vers un service cloud, qui a été très laborieux, la version de pict-rs utilisée étant complètement cassée au niveau de la migration.
J'ai donc dû mettre à jour la version de pict-rs et la migration s'est ensuite, a priori, passée sans plus de problème.
Maintenant que l'opération pompier est terminée, je vais profiter des différents ponts pour mettre en place des alertes qui fonctionnent mieux, et tenter de fiabiliser un peu plus l'instance.
-- MAJ du 27/04 à 16h33
La migration vers la version 0.19.11 est maintenant faite, n'hésitez pas à remonter tout problème.