2021-06-28 User Committee Meeting

Positionnement de Plafrim: machine expérimentale, avec une diversité de types de machines disponibles. Le passage à l’échelle des programmes doit être fait sur d’autres clusters (mésocentre, GENCI, …)

Changement dans Slurm: sans aucune contrainte sur le job, Slurm va attribuer des machines suivant cette liste de priorités: d’abord les zondas (pas de réseau rapide, ni GPUs, …), puis miriel (vieux), puis bora, puis les autres types de machines plus spécifiques (GPU, ARM, mémoire, …). Ce changement devrait être communiqué et documenté rapidement. Pour demander un type de
machine particulier, il faut utiliser l’option -C des commandes Slurm (voir https://www.plafrim.fr/hardware-documentation/). On évite ainsi des donner des machines aux caractéristiques particulières à des jobs qui n’utilisent pas ces caractéristiques.

Il y a maintenant une queue preempt dans laquelle les jobs sont exécutés quand la machine n’est pas utilisée, mais ils peuvent être préemptés si d’autres jobs arrivent. Il faut avoir un système de checkpointing pour bien en profiter.

Besoins logiciels rapportés:
- Pouvoir utiliser des nœuds Plafrim comme runner GitLab ou slave Jenkins (les vieilles machines mistral avec des GPU pourraient être utilisées pour ça)
- Une interface REST pour soumettre sans passer par la ligne de commande
- Avoir une contrainte comme ‘mpi’ pour signaler les nœuds qui ont un réseau rapide (mais il faudrait que slurm prenne des nœuds dans la même partition pour que mpi marche)

Beaucoup de points peuvent être améliorés dans la documentation (sur plafrim.fr):
- Expliquer les warnings souvent rencontrés avec MPI et les réseaux rapides
- Comment migrer vers un cluster plus important ? (quels clusters sont disponibles, comment migrer son application et ses données)
- Documenter la politique d’utilisation, que faire quand on constate un abus
- Documenter la version de SLURM installée pour les fonctionnalités avancées comme les jobs héterogènes