User Committee – PlaFRIM

2021-06-28 User Committee Meeting

Présentation

Positionnement de Plafrim: machine expérimentale, avec une diversité de types de machines disponibles. Le passage à l’échelle des programmes doit être fait sur d’autres clusters (mésocentre, GENCI, …)

Changement dans Slurm: sans aucune contrainte sur le job, Slurm va attribuer des machines suivant cette liste de priorités: d’abord les zondas (pas de réseau rapide, ni GPUs, …), puis miriel (vieux), puis bora, puis les autres types de machines plus spécifiques (GPU, ARM, mémoire, …). Ce changement devrait être communiqué et documenté rapidement. Pour demander un type de
machine particulier, il faut utiliser l’option -C des commandes Slurm (voir https://www.plafrim.fr/hardware-documentation/). On évite ainsi des donner des machines aux caractéristiques particulières à des jobs qui n’utilisent pas ces caractéristiques.

Il y a maintenant une queue preempt dans laquelle les jobs sont exécutés quand la machine n’est pas utilisée, mais ils peuvent être préemptés si d’autres jobs arrivent. Il faut avoir un système de checkpointing pour bien en profiter.

Besoins matériels rapportés:
- GPUs récents
- Quelques nœuds avec GPUs et beaucoup de mémoire comme sirocco21
- Des nœuds avec réseau rapide et beaucoup de RAM pour les gros problèmes de
  simulation 3D, mais PlaFRIM ne pourra pas en avoir beaucoup, il faut rapidement passer au MCIA
- Pas besoin de gros nœud pour remplacer souris/brise, diablo05 suffit la plupart du temps
- Noeuds ARM avec GPU et réseau rapide, voire RISC-V, si possible proche de ce qui risque d’arriver dans le projet Exascale France et/ou EPI.
- Encore trop tôt pour les FPGA mais continuer à surveiller (comme toujours, essayer d’avoir les machines qui seront demain dans les grands centres de calculs)
- Un dataverse pour stocker des données, y compris pour la reproductibilité (voir avec JM Frigerio de l’INRAE)

Besoins logiciels rapportés:
- Pouvoir utiliser des nœuds Plafrim comme runner GitLab ou slave Jenkins (les vieilles machines mistral avec des GPU pourraient être utilisées pour ça)
- Une interface REST pour soumettre sans passer par la ligne de commande
- Avoir une contrainte comme ‘mpi’ pour signaler les nœuds qui ont un réseau rapide (mais il faudrait que slurm prenne des nœuds dans la même partition pour que mpi marche)

Beaucoup de points peuvent être améliorés dans la documentation (sur plafrim.fr):
- Expliquer les warnings souvent rencontrés avec MPI et les réseaux rapides
- Comment migrer vers un cluster plus important ? (quels clusters sont disponibles, comment migrer son application et ses données)
- Documenter la politique d’utilisation, que faire quand on constate un abus
- Documenter la version de SLURM installée pour les fonctionnalités avancées comme les jobs héterogènes

Besoin d’éducation par rapport à la politique d’utilisation de Plafrim:
- Pas de quota ni de créneaux horaires différenciés pour simplifier les règles d’utilisation et la configuration de Slurm
- En échange: utilisation “raisonnée” de la plateforme, ne pas monopoliser tous les nœuds d’un certain type pendant trop longtemps (voir Good usage rules de
  https://www.plafrim.fr/wp-content/uploads/2015/09/2015_09_charte_plafrim_en.pdf). Si on souhaite utiliser beaucoup de nœuds pendant beaucoup de temps, c’est sans doute signe qu’il faut plutôt utiliser un autre cluster plus grand.
- En cas de besoin exceptionnel (publication, …) qui nécessite de monopoliser des nœuds de calcul sur un temps déterminé, une demande pourrait être adressée au Comité Utilisateurs qui donnera son avis et son accord. Ce type de demande est déjà mis en pratique au MCIA.
- Si un abus est constaté, ne pas hésiter à contacter le comité technique ou utilisateur.
- Nécessité de mieux expliquer cette politique d’utilisation, peut-être dans le mail de confirmation de création du compte
- Ne pas hésiter à contacter le comité utilisateur ou technique pour un usage qui sortirait des Good usage rules
- Rajouter des informations dans le mail envoyé quand un compte PlaFRIM est créé.

2015-11-13 User Committee Meeting

Présents

Heloise Beaugendre
Michel Bergmann
Lionel Boillot (remplaçant de Julien Diaz)
Nathalie Furmento
Brice Goglin
Vincent Perrier
Pierre Ramet (remplaçant d’Abdou Guermouche)
Francois Rué
Olivier Saut
David Sherman

Propositions suite à la réunion

Annonce du nouveau site www.plafrim.fr
Annonce de la réunion de présentation du 15 décembre
Créer une queue veryverylong (1 mois) pour 20 noeuds miriel
Ouvrir le site wordpress en écriture aux utilisateurs en faisant la demande

Ordre du jour

1) Documentation – comment l’améliorer

Un nouveau site www.plafrim.fr — géré par wordpress — est disponible. Il n’est pas encore complet, mais sera annoncé d’ici la fin du mois.

Donner à tous les utilisateurs la possibilité de poster des articles dans www.plafrim.fr. Le nombre de contributeurs devrait être restreint, et avec un mécanisme de modération, on devrait éviter de polluer le site.

Ajouter l’équivalent de monika/ganglia au site.

2) Le nouveau Scheduler

Dans les centres nationaux, slurm est utilisé. L’outil marche très bien, et de la documentation est largement disponible.

Des ateliers pratiques vont être mis en place autour de l’utilisation de Slurm, au niveau débutant et avancé.

3) La communication

La liste plafrim-users est maintenant archivée.

https://sympa.inria.fr/sympa/info/plafrim-users

Une réunion de présentation de la plateforme et de ses nouvelles fonctionnalités aura lieu le mardi 15 décembre de 14h00 à 17h00 dans l’amphi de l’IMB.

4) Règles de bon usage

Ne pas oublier de citer l’utilisation de PlaFRIM dans les articles.
Ajouter PlaFRIM dans le champ collaborateurs lors du dépôt HAL.

5) Besoins matériels

Machines de visualisation comme sur avakas
- utilisation de paraview en parallèle
- nœuds dédiés
- formation pour utiliser ces machines
Power 8 : prêt d’ici la fin de l’année
Achat de KNL et de nvidia Pascal en 2016

6) Divers

Accès à souris: La machine n’est plus directement accessible via ssh mais via l’ordonnanceur slurm. Défaut de communication mais la bascule avait déjà été discuté pendant les premières réunions précédents l’achat. Le passage sous slurm est grandement positif (partage communautaire, stats d’utilisation, maintien à jour par l’équipe PlaFRIM, ..) On attend l’intervention de SGI pour mettre à jour la machine.
Éviter que trop de personnes arrêtent d’utiliser PlaFRIM pour se tourner ver Avakas du fait d’un manque de communication/documentation.
Utilisation des mistral (xeon phi) : elles sont déjà sur PlaFRIM II.
Problème d’Infiniband/MPI. Du à une mise à jour il y a 15 jours/ 3 semaines d’un paramètre d’IntelMPI pour le choix par défaut pour l’infiniband. Le problème est maintenant résolu. Des benchmarks vont être mis en place pour éviter que cela ne se reproduise.
L’information remontée par Slurm est souvent laconique et parfois plus technique (par exemple -n et -N)
Gestion avec yarn possible ?
Le module slurm peut il être chargé automatiquement ?
Toute demande pour accéder à un dépôt distant peut être faite en ouvrant un ticket auprès de plafrim-support@inria.fr.
Mise en place d’une queue de 1 mois pour les longues expérimentations. Ca serait une phase de test pour 3 mois pour 20 noeuds miriel. Voir en parallèle la mise en place de mécanismes de checkpoint/restart (interne à un code) ou de préemption. Les queues pour les jobs longs seraient uniquement valides sur des périodes de temps définis (exemple la nuit). En dehors de ces périodes, les jobs longs seraient dumpés sur disque pour être mis en pause afin de permettre à d’autres jobs de s’exécuter. Cela nécessiterait un travail d’adaptation des applis parallèles pour intégrer ces mécanismes de check-point/restart.

2016-05-02 User Committee Meeting

Présentation

Présents

Bill Allombert (représentant d’Andreas Enge, Lfant)
Heloïse Beaugendre (Cardamom)
Michel Bergmann (Memphis)
Julien Diaz (Magic-3d)
Nathalie Furmento (Storm)
Robin Genuer (Sistm)
Brice Goglin (Tadaam)
Abdou Guermouche (Hiepacs)
Vincent Perrier (Cagire)
Francois Rué (Représentant comité technique)
Olivier Saut (Monc)
David Sherman (Pleiade)
Olivier Coulaud (Responsable PlaFRIM)

Ordre du jour

1) Arrêt de PlaFRIM1

Mise à jour de manumanu/minotaure

Les équipes continuant à utiliser la machine n’ont pas besoin de l’accès au lustre, et aux modules partagés de la plateforme. Il semble toutefois primordial de mettre la machine à jour pour pouvoir avoir une version récente de la glibc (ou du moins équivalente à celle de PlaFRIM 2), et des outils SGI (notamment mpt).

Le coût de la mise à jour par SGI étant élevée, la proposition est de laisser la machine dans son état actuel, et de tenter une installation CentOS avec un dualboot.

Migration PlaFRIM1 vers PlaFRIM2

La migration des machines va se faire au fur et à mesure. Du fait d’un manque d’ingénieurs et des problèmes de compatibilité IPMI et BIOS, la migration des machines est très lente.

Il est demandé à ce que les mirabelles soient conservés comme noeuds de calcul et non comme machine de formation.

CARDAMOM fait remonter des problèmes de transition de PlaFRIM1 vers PlaFRIM2 du fait de: modules de PlaFRIM1 non disponibles sur PlaFRIM2, baisse de performances entre PlaFRIM1 et PlaFRIM2

MEMPHIS fait également remonter des problèmes dûs à des queues trop courtes, des erreurs “nodes failed”, des problèmes d’accès aux disque, des problèmes de documentation et d’information, et des problèmes
d’utilisation de la file préemptive (aucune libération des ressources).

ACTIONS

Il est important que les utilisateurs fassent remonter la liste de modules manquants sur PlaFRIM2 pour qu’ils puissent être installés.
Les problèmes de performances sont probablement liés à une configuration incomplète lors de la soumission (mauvaise ou non utilisation de variables d’environnement de SLURM). Il serait intéressant de mettre en place un accompagnement direct des utilisateurs sur l’utilisation de slurm.

Autres points

** Certains utilisateurs n’arrivant pas à se connecter directement sur PlaFRIM2, LFANT a demandé que soit mis en place une solution ne requiérant pas une configuration de ssh spécifique sur les postes des utilisateurs (ce qui est un obstacle pour certains). Une telle passerelle existe déjà pour PlaFRIM1. L’accès à la nouvelle plateforme étant régie par des règles très strictes de sécurité, ceci ne sera pas possible. Les utilisateurs ayant des soucis de connexion sont invités à se rapprocher de l’équipe technique.

** LFANT suggère l’ajout à PlaFRIM2 de machines de développement pour un usage interactif, semblable aux devel2-9 de PlaFRIM1. L’idée étant de faire en sorte que PlaFRIM2 fournisse les même services que PlaFRIM1 (et plus bien sûr!).

** Magic-3D demande s’il serait possible de faire passer certaines parties du site web contentant les informations de base sur le fonctionnement de privé à public ? Par exemple la liste des queues avec les limitations ?
LFANT demande également que les informations sur les queues données sur le site soient considérées comme les informations officielles décidées par le comité des utilisateurs, et non les informations données par sinfo.

2) Animation scientifique

Une journée scientifique en commun avec le mésocentre est en cours d’organisation. Plus de détails vous seront communiqués ultérieurement. Merci de sensibiliser vos équipes à y participer.

Voici des suggestions de formation remontées par les utilisateurs:

Formation VIHPS de la maison de la simulation donnée au niveau européen (scalasca, tau, maqao, paraver … ). On pourrait envisager de faire une session sur Bordeaux.
Formation sur la visualisation en parallèle. Pas de formateur de ciblé, on pourrait demander à Martial Mancip (maison de la simulation).
Formation sur l’usage des outils du MCIA ? Suite à une demande d’O. Coulaud, M. Bergmann indique qu’une doctorante de son équipe les utilisait mais elle est partie

3) Politique de mise à jour des systèmes, logiciels, bibliothèques, …

Pas de retour particulier des équipes.
En ce qui concerne les modules utilisateurs, cela pourrait être intéressant d’utiliser des outils de construction de modules comme easybuild, spack, ou ansible.

4) Discussion sur le système d’ordonnancement (queues de soumission, limitations)

LFANT voudrait allonger la limite de la queue longue sur souris à une semaine.
Pour la queue testpreempt, il semblerait qu’il y ait un conflit de préemption. En réservant moins de 24 noeuds sur cette queue, aucune préemption n’est faite, en réservant plus de 24 noeuds, le job est préempté. Il faudrait tester que la préemption fonctionne correctement.

Il serait également intéressant d’avoir des statistiques d’utilisation de la plateforme, en particulier, le temps d’attente moyen pour l’exécution d’un job.

HiEPACS et STORM font remonter un problème pour la cohabitation de jobs longs et de jobs courts. Une succession de jobs longs déjà ordonnancée sur la machine retarde l’exécution de jobs courts, qu’on aurait aimé pouvoir exécuter entre 2 jobs longs.

Les propositions retenues par le comité suite aux discussions sont:

demande de mettre en place sur 16 machines mistral (Xeon Phi) une file longue d’une semaine. On garde 2 mistrals en dehors de cette file pour continuer à faire des travaux spécifiques sur les accélérateurs.
demande de mettre en place sur les miriel une queue bloquée par défaut pour des travaux d’une durée de plus de 15 jours sur 8 à 10 noeuds. L’utilisation de cette file sera faite par demande motivée à
la commission utilisateurs, une absence de réponse sous 18h00 équivaudra à une acceptation. Le responsable de la commission utilisateurs transmettra alors la demande au comité technique pour la mise en place de la file.
Mettre en place une file de routage qui utiliserait une métrique d’utilisation CPUS (nb de coeurs * durée du job) pour permettre un meilleur partage et une meilleure utilisation des ressources pour les jobs longs et courts.

Toutes ces propositions seront étudiées par le comité technique et transmises au bureau pour avis final.

5) Présentation des machines en prêt

La machine IBM Power 8 déjà disponible et la machine White Box Knight Landing devant arriver ont été présentées.

2017-01-24 User Committee Meeting

Présentation

Présents

Abdou Guermouche
Michel Bergmann
Bill Allombert
Nathalie Furmento
François Rue
Brice Goglin
Héloise Beaugendre
Lionel Boillot
Marie Bonnasse (en remplacement de Julien Diaz)

But de la réunion

proposition d’évolution pour les queues de soumission –> maquette qui corresponde aux besoins des différentes communautés

Demande d’Abdou concernant la queue longue: il ne faudrait pas que les machines spécialisées (power8, knl, souris) soient bloquées sur une durée trop longue, c’est moins gênant si on bloque une partie des miriels.

Demande de Bill pour garder les queues longue (1 semaine) sur souris et mistral.

Proposition: mise en place de 3 queues: court (4h), moyen (1j), long (3j) sur l’ensemble des nœuds, et y ajouter des ressources spécifiques (gres=GPU,MIC,OPA,…)

Cette maquette va être testée sur la plateforme de la formation en février. Un retour sera fait à la commission utilisateurs au courant du mois de mars.

Autres infos

nouvelles machines: KNL, nouveaux GPUs (pascal), machine de visualisation

Autres demandes

(Michel) Florian Bernard envoie des tickets qui restent sans réponse. D’autres utilisateurs de PlaFRIM dans l’équipe n’envoient pas de tickets suite à cela.

(Bill) Proposition pour que les erreurs au niveau de la couche ORTE soient logués pour permettre à l’équipe technique de pouvoir faire un diagnostique à posteriori. En général ce genre d’erreur dépend de l’allocation slurm qui n’est pas facilement reproductible (par exemple le 6ème cœur de miriel08 était défaillant). Problème des demandes incompatibles (comme –gres=gpu sur la queue souris). certaines sont rejetées immédiatement, d’autres sont acceptées mais ne seront forcément jamais éligibles. Il faudrait que les utilisateurs nous fassent remonter les cas problématiques pour que toutes ces demandes soient rejetées automatiquement.

où sont ganglia et monika? ils sont sur www.plafrim.fr. Faut se rendre dans le menu “The Platform”/”State”, ca ouvre une page avec 2 liens:

“Performance monitoring: Ganglia” qui pointe sur Ganglia
“Jobs monitoring” qui pointe sur Pistache

Demande à ce que ces pages soient mises plus en avant.

2015-06-08 User Committee Meeting

Slides