Comité des Utilisateurs PlaFRIM – Réunion du mardi 24 janvier 2017

par Nathalie Furmento
Comité utilisateurs | Pas de commentaire

Présentation

Présents

  • Abdou Guermouche
  • Michel Bergmann
  • Bill Allombert
  • Nathalie Furmento
  • François Rue
  • Brice Goglin
  • Héloise Beaugendre
  • Lionel Boillot
  • Marie Bonnasse (en remplacement de Julien Diaz)

But de la réunion

proposition d'évolution pour les queues de soumission --> maquette qui corresponde aux besoins des différentes communautés

Demande d'Abdou concernant la queue longue: il ne faudrait pas que les machines spécialisées (power8, knl, souris) soient bloquées sur une durée trop longue, c'est moins gênant si on bloque une partie des miriels.

Demande de Bill pour garder les queues longue (1 semaine) sur souris et mistral.

Proposition: mise en place de 3 queues: court (4h), moyen (1j), long (3j) sur l'ensemble des nœuds, et y ajouter des ressources spécifiques (gres=GPU,MIC,OPA,...)

Cette maquette va être testée sur la plateforme de la formation en février. Un retour sera fait à la commission utilisateurs au courant du mois de mars.

Autres infos

nouvelles machines: KNL, nouveaux GPUs (pascal), machine de visualisation

Autres demandes

(Michel) Florian Bernard envoie des tickets qui restent sans réponse. D'autres utilisateurs de PlaFRIM dans l'équipe n'envoient pas de tickets suite à cela.

(Bill) Proposition pour que les erreurs au niveau de la couche ORTE soient logués pour permettre à l'équipe technique de pouvoir faire un diagnostique à posteriori. En général ce genre d'erreur dépend de l'allocation slurm qui n'est pas facilement reproductible (par exemple le 6ème cœur de miriel08 était défaillant). Problème des demandes incompatibles (comme --gres=gpu sur la queue souris). certaines sont rejetées immédiatement, d'autres sont acceptées mais ne seront forcément jamais éligibles. Il faudrait que les utilisateurs nous fassent remonter les cas problématiques pour que toutes ces demandes soient rejetées automatiquement.

où sont ganglia et monika? ils sont sur www.plafrim.fr. Faut se rendre dans le menu "The Platform"/"State", ca ouvre une page avec 2 liens:

  1. "Performance monitoring: Ganglia" qui pointe sur https://plafrim.fr/ganglia
  2. "Jobs monitoring" qui pointe sur https://www.plafrim.fr/en/the-platform/jobs-monitoring/

 

Demande à ce que ces pages soient mises plus en avant.