Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Ãœberarbeitung
Nächste Überarbeitung
Vorhergehende Ãœberarbeitung
Nächste Überarbeitung Beide Seiten der Revision
hlr:phoenix:nutzeranleitung [2020/05/05 12:25]
raskrato [Lehre]
hlr:phoenix:nutzeranleitung [2021/12/16 11:00]
matfranz [Jobfile]
Zeile 68: Zeile 68:
 --begin=now+60 (seconds by default) ​ --begin=now+60 (seconds by default) ​
 --begin=2010-01-20T12:​34:​00 --begin=2010-01-20T12:​34:​00
 +</​code>​
 +
 +Es gibt insgesamt acht GPU-Konten mit jeweils vier Grafikkarten. Für diese gibt es drei verschiedene GPU queues mit verschiedenen Workloads:
 +
 +<​code>​
 +gpu01_queue:​ 2 GPU-Knoten, hohe Priorität; nur für Jobs, die alle vier GPUs eines Knotens allozieren; maximal ein Job pro User; Walltime: 3 Tage
 +gpu02_queue:​ 6 GPU-Knoten, hohe Priorität; auch für Jobs, die nur einzelne GPUs allozieren; maximal zwei Jobs pro User; Walltime: 7 Tage
 +gpu03_queue:​ 8 GPU-Knoten, niedrige Priorität; auch für Jobs, die nur einzelne GPUs allozieren; Anzahl der Jobs pro User unbegrenzt; Walltime: 7 Tage; Jobs können unterbrochen werden, daher Checkpoints im Code verwenden
 +</​code>​
 +
 +Ein Beispiel für ein Jobfile für einen der GPU-Knoten sieht wie folgt aus:
 +
 +<​code>​
 +#!/bin/bash -l
 +
 +#SBATCH --partition=gpu02_queue
 +#SBATCH --nodes=2
 +#SBATCH --time=2-00:​00:​00
 +#SBATCH --job-name=GPUExample
 +#SBATCH --ntasks-per-node=4
 +#SBATCH --gres=gpu:​4 ​
 +
 +~/​anaconda3/​bin/​python "/​path/​to/​file/​example.py"​
 </​code>​ </​code>​
  
Zeile 287: Zeile 310:
  
 Der Lizenzcheck funktioniert so, dass vorher die angegebene Anzahl an Lizenzen geprüft werden und je nachdem das Programm weiterlaufen kann, oder nach einer Stunde der Check nochmal durchgeführt wird, wenn nicht genug Lizenzen vorhanden sein sollten. Der Lizenzcheck funktioniert so, dass vorher die angegebene Anzahl an Lizenzen geprüft werden und je nachdem das Programm weiterlaufen kann, oder nach einer Stunde der Check nochmal durchgeführt wird, wenn nicht genug Lizenzen vorhanden sein sollten.
 +
 +==== Ansys für mechanische Simulationen ====
 +
 +<​code>​
 +#!/bin/bash -l
 +#
 +### Grosse Knoten mit 256GB RAM (fat) SBATCH --partition=fat
 +### Kleinere Knoten mit 64GB RAM (standard) SBATCH --partition=standard
 +### Die Anzahl der Kerne ist bei beiden Knotentypen (fat und standard) gleich, naemlich 20
 +### Es gibt insgesamt 8 Knoten (fat) mit jeweils 256GB RAM
 +### ####### Nehmt bitte grundsaetzlich immer zuerst die Standardknoten !!!!! #######
 +###
 +### Variable NUMPROC = (#SBATCH --nodes=3) x (SBATCH --ntasks-per-node=20) = 60
 +
 +#SBATCH --partition=standard
 +#SBATCH --nodes=1
 +#SBATCH --time=10:​00:​00
 +#SBATCH --job-name=Tensiletest
 +#SBATCH --ntasks-per-node=20
 +
 +
 +#######################​
 +#### HIER VARIABEL ####
 +#######################​
 +export working_dir=/​beegfs/​work/​y0090888/​cfx
 +#################​
 +NUMPROCS=20
 +#################​
 +cd $working_dir
 +
 +export TMI_CONFIG=/​cluster/​tools/​ansys_2018/​ansys_inc/​v182/​commonfiles/​MPI/​Intel/​5.1.3.223/​linx64/​etc/​tmi.conf
 +export I_MPI_FABRICS=shm:​tmi
 +export I_MPI_FABRICS_LIST=tmi
 +export I_MPI_FALLBACK=0
 +export I_MPI_TMI_PROVIDER=psm2
 +#export I_MPI_DEBUG=5
 +
 +module load software/​ansys/​19.2
 +
 +
 +# Befehle:
 +# Ausführung der Rechnung im Arbeitsverzeichnis:​ cfx5solve -batch -chdir $working_dir -single -verbose ​
 +# Def-File: -def "​filename.def"​
 +# kein Plan was die alle machen (diverse Clusterbefehle),​ war copy-paste: -start-method 'Intel MPI Distributed Parallel'​ -par -part $NUMPROCS -par-host-list $ALLMACHINES -part-coupled -part-large -part-mode orcb -priority 0 -size 1.4 -size-part 1.4
 +# Benennung des res-Files: -fullname "​filename"​
 +# andere Ergebnisdatei als Initialisierung verwenden: -cont-from-file "​filename.res"​
 +# Vorgabe eines ccl-Files für Änderungen im def-File (z.B. andere Randbedingung,​ Druck, etc.): -ccl "​filename.ccl"​
 +#
 +### komplettes Bsp:​cfx5solve -batch -chdir $working_dir -single -verbose -def V3_4_closed.def -ccl FPR_1_269_3ms.ccl -fullname V3_4_closed_FPR_1_269_3ms -cont-from-file V3_4_closed_FPR_1_256.res -start-method 'Intel MPI Distributed Parallel'​ -par -part $NUMPROCS -par-host-list $ALLMACHINES -part-coupled -part-large -part-mode orcb -priority 0 -size 1.4 -size-part 1.4
 +
 +ansys192 -B -batch -chdir $working_dir -single -verbose -i tensiletest.dat \ -start-method 'Intel MPI Distributed Parallel'​ -par -part $NUMPROCS -par-host-list $ALLMACHINES -part-coupled -part-large -part-mode orcb -priority 0 -size 1.4 -size-part 1.4
 +
 +
 +</​code>​
  
  
Zeile 462: Zeile 539:
 --begin=now+60 (seconds by default) ​ --begin=now+60 (seconds by default) ​
 --begin=2010-01-20T12:​34:​00 --begin=2010-01-20T12:​34:​00
 +</​code>​
 +
 +In the following you can find an example for a jobfile for a GPU-node:
 +
 +<​code>​
 +#!/bin/bash -l
 +
 +#SBATCH --partition=gpu
 +#SBATCH --nodes=2
 +#SBATCH --time=2-00:​00:​00
 +#SBATCH --job-name=GPUExample
 +#SBATCH --ntasks-per-node=4
 +#SBATCH --gres=gpu:​4 ​
 +
 +~/​anaconda3/​bin/​python "/​path/​to/​file/​example.py"​
 </​code>​ </​code>​
  
hlr/phoenix/nutzeranleitung.txt · Zuletzt geändert: 2023/09/05 18:08 von matfranz
Gauß-IT-Zentrum