当任务数量超过处理器数量时,Parallelcluster torque节点超载。

0

【以下的问题经过翻译处理】 你好,

我注意到我的集群中的节点往往会超负荷运行更多的torque作业,超过了可用CPU的数量。我怀疑这可能与torque配置有关(或者可能超线程不生效?)

我正在使用带有自定义AMI和每个节点最大8个处理器(不带超线程的c5.4xlarge)的parallelcluster 2.10。

我要分析的节点是 ip-172-31-68-184

这是该节点的qnodes输出,应该允许np = 8个CPU: [code] $ qnodes ... ip-172-31-68-184 state = free power_state = Running np = 8 ntype = cluster jobs = 0/218.ip-172-31-24-41.eu-central-1.compute.internal,1/219.ip-172-31-24-41.eu-central-1.compute.internal,2/220.ip-172-31-24-41.eu-central-1.compute.internal,3/221.ip-172-31-24-41.eu-central-1.compute.internal,4/518.ip-172-31-24-41.eu-central-1.compute.internal status = opsys=linux,uname=Linux ip-172-31-68-184 4.18.0-193.28.1.el8_2.x86_64 #1 SMP Thu Oct 22 00:20:22 UTC 2020 x86_64,sessions=1182 1306 5674 6030 6039 6046 6062 112846,nsessions=8,nusers=4,idletime=166759,totmem=31720500kb,availmem=29305472kb,physmem=31720500kb,ncpus=8,loadave=18.33,gres=,netload=47638299866,state=free,varattr= ,cpuclock=Fixed,macaddr=02:5a:f2:25:37:ba,version=6.1.2,rectime=1612984963,jobs=218.ip-172-31-24-41.eu-central-1.compute.internal 219.ip-172-31-24-41.eu-central-1.compute.internal 220.ip-172-31-24-41.eu-central-1.compute.internal 221.ip-172-31-24-41.eu-central-1.compute.internal 518.ip-172-31-24-41.eu-central-1.compute.internal mom_service_port = 15002 mom_manager_port = 15003 [/code] , whereas the qstat output for this node: [code] Job ID Username Queue Jobname SessID NDS TSK Memory Time S Time 218.ip-172-31-24-41.eu flacscloud batch 000038 6030 -- 4 -- 48:00:00 R 46:13:51 ip-172-31-68-184/0 219.ip-172-31-24-41.eu flacscloud batch 000039 6039 -- 4 -- 48:00:00 R 46:13:51 ip-172-31-68-184/1 220.ip-172-31-24-41.eu flacscloud batch 000056 6046 -- 4 -- 48:00:00 R 46:13:51 ip-172-31-68-184/2 221.ip-172-31-24-41.eu flacscloud batch 000060 6062 -- 4 -- 48:00:00 R 46:13:51 ip-172-31-68-184/3 518.ip-172-31-24-41.eu flacscloud batch 012310 112846 -- 2 -- 48:00:00 R 23:16:18 ip-172-31-68-184/4 [/code] 很明显,正在运行的作业的 TSK 总和大于 CPU 数量。在该节点上运行 top 命令可以确认这一观察结果,该节点已经超载。为什么会发生这种情况,我该如何修复这种行为?

profile picture
EXPERTE
gefragt vor 6 Monaten21 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 嗨@mfolusiak,

感谢您提供的信息。根据您的submit_args,任务提交命令使用“-l ncpus=2”来指定vCPU数量,如果您将资源参数替换为“-l nodes=1:ppn=2”,该资源参数将解决负载过载问题,并根据实例vCPU容量将作业分配给不同的实例。

nodes-指定应分配的独立节点数

ppn-为每个节点分配多少个进程

~Yulei

编辑:yulei-AWS于2021年2月12日下午4:02

profile picture
EXPERTE
beantwortet vor 6 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen