Comité des Utilisateurs PlaFRIM – Réunion du vendredi 13 novembre 2015

par Nathalie Furmento
Comité utilisateurs | Pas de commentaire

Présents

  • Heloise Beaugendre
  • Michel Bergmann
  • Lionel Boillot (remplaçant de Julien Diaz)
  • Nathalie Furmento
  • Brice Goglin
  • Vincent Perrier
  • Pierre Ramet (remplaçant d'Abdou Guermouche)
  • Francois Rué
  • Olivier Saut
  • David Sherman

Propositions suite à la réunion

  • Annonce du nouveau site www.plafrim.fr
  • Annonce de la réunion de présentation du 15 décembre
  • Créer une queue veryverylong (1 mois) pour 20 noeuds miriel
  • Ouvrir le site wordpress en écriture aux utilisateurs en faisant la demande

Ordre du jour

1) Documentation - comment l’améliorer

Un nouveau site www.plafrim.fr -- géré par wordpress -- est disponible. Il n'est pas encore complet, mais sera annoncé d'ici la fin du mois.

Donner à tous les utilisateurs la possibilité de poster des articles dans www.plafrim.fr. Le nombre de contributeurs devrait être restreint, et avec un mécanisme de modération, on devrait éviter de polluer le site.

Ajouter l'équivalent de monika/ganglia au site.

2) Le nouveau Scheduler

Dans les centres nationaux, slurm est utilisé. L'outil marche très bien, et de la documentation est largement disponible.

Des ateliers pratiques vont être mis en place autour de l'utilisation de Slurm, au niveau débutant et avancé.

3) La communication

La liste plafrim-users est maintenant archivée.

https://sympa.inria.fr/sympa/info/plafrim-users

Une réunion de présentation de la plateforme et de ses nouvelles fonctionnalités aura lieu le mardi 15 décembre de 14h00 à 17h00 dans l'amphi de l'IMB.

4) Règles de bon usage

Ne pas oublier de citer l'utilisation de PlaFRIM dans les articles.
Ajouter PlaFRIM dans le champ collaborateurs lors du dépôt HAL.

5) Besoins matériels

  • Machines de visualisation comme sur avakas
    • utilisation de paraview en parallèle
    • nœuds dédiés
    • formation pour utiliser ces machines
  • Power 8 : prêt d'ici la fin de l'année
  • Achat de KNL et de nvidia Pascal en 2016

6) Divers

  • Accès à souris: La machine n'est plus directement accessible via ssh mais via l'ordonnanceur slurm. Défaut de communication mais la bascule avait déjà été discuté pendant les premières réunions précédents l'achat. Le passage sous slurm est grandement positif (partage communautaire, stats d'utilisation, maintien à jour par l'équipe PlaFRIM, ..) On attend l'intervention de SGI pour mettre à jour la machine.
  • Éviter que trop de personnes arrêtent d'utiliser PlaFRIM pour se tourner ver Avakas du fait d'un manque de communication/documentation.
  • Utilisation des mistral (xeon phi) : elles sont déjà sur PlaFRIM II.
  • Problème d'Infiniband/MPI. Du à une mise à jour il y a 15 jours/ 3 semaines d'un paramètre d'IntelMPI pour le choix par défaut pour l'infiniband. Le problème est maintenant résolu. Des benchmarks vont être mis en place pour éviter que cela ne se reproduise.
  • L'information remontée par Slurm est souvent laconique et parfois plus technique (par exemple -n et -N)
  • Gestion avec yarn possible ?
  • Le module slurm peut il être chargé automatiquement ?
  • Toute demande pour accéder à un dépôt distant peut être faite en ouvrant un ticket auprès de plafrim-support@inria.fr.
  • Mise en place d'une queue de 1 mois pour les longues expérimentations. Ca serait une phase de test pour 3 mois pour 20 noeuds miriel. Voir en parallèle la mise en place de mécanismes de checkpoint/restart (interne à un code) ou de préemption.  Les queues pour les jobs longs seraient uniquement valides sur des périodes de temps définis (exemple la nuit). En dehors de ces périodes, les jobs longs seraient dumpés sur disque pour être mis en pause afin de permettre à d'autres jobs de s'exécuter. Cela nécessiterait un travail d'adaptation des applis parallèles pour intégrer ces mécanismes de check-point/restart.