当任务数量超过处理器数量时，Parallelcluster torque节点超载。

Question

【以下的问题经过翻译处理】 你好，

我注意到我的集群中的节点往往会超负荷运行更多的torque作业，超过了可用CPU的数量。我怀疑这可能与torque配置有关（或者可能超线程不生效？）

我正在使用带有自定义AMI和每个节点最大8个处理器（不带超线程的c5.4xlarge）的parallelcluster 2.10。

我要分析的节点是 **ip-172-31-68-184**。

这是该节点的qnodes输出，应该允许np = 8个CPU：
[code]
$ qnodes
...
ip-172-31-68-184
state = free
power_state = Running
np = 8
ntype = cluster
jobs = 0/218.ip-172-31-24-41.eu-central-1.compute.internal,1/219.ip-172-31-24-41.eu-central-1.compute.internal,2/220.ip-172-31-24-41.eu-central-1.compute.internal,3/221.ip-172-31-24-41.eu-central-1.compute.internal,4/518.ip-172-31-24-41.eu-central-1.compute.internal
status = opsys=linux,uname=Linux ip-172-31-68-184 4.18.0-193.28.1.el8_2.x86_64 #1 SMP Thu Oct 22 00:20:22 UTC 2020 x86_64,sessions=1182 1306 5674 6030 6039 6046 6062 112846,nsessions=8,nusers=4,idletime=166759,totmem=31720500kb,availmem=29305472kb,physmem=31720500kb,ncpus=8,loadave=18.33,gres=,netload=47638299866,state=free,varattr= ,cpuclock=Fixed,macaddr=02:5a:f2:25:37:ba,version=6.1.2,rectime=1612984963,jobs=218.ip-172-31-24-41.eu-central-1.compute.internal 219.ip-172-31-24-41.eu-central-1.compute.internal 220.ip-172-31-24-41.eu-central-1.compute.internal 221.ip-172-31-24-41.eu-central-1.compute.internal 518.ip-172-31-24-41.eu-central-1.compute.internal
mom_service_port = 15002
mom_manager_port = 15003
[/code]
, whereas the qstat output for this node:
[code]
Job ID Username Queue Jobname SessID NDS TSK Memory Time S Time
218.ip-172-31-24-41.eu flacscloud batch 000038 6030 -- 4 -- 48:00:00 R 46:13:51
ip-172-31-68-184/0
219.ip-172-31-24-41.eu flacscloud batch 000039 6039 -- 4 -- 48:00:00 R 46:13:51
ip-172-31-68-184/1
220.ip-172-31-24-41.eu flacscloud batch 000056 6046 -- 4 -- 48:00:00 R 46:13:51
ip-172-31-68-184/2
221.ip-172-31-24-41.eu flacscloud batch 000060 6062 -- 4 -- 48:00:00 R 46:13:51
ip-172-31-68-184/3
518.ip-172-31-24-41.eu flacscloud batch 012310 112846 -- 2 -- 48:00:00 R 23:16:18
ip-172-31-68-184/4
[/code]
很明显，正在运行的作业的 TSK 总和大于 CPU 数量。在该节点上运行 top 命令可以确认这一观察结果，该节点已经超载。为什么会发生这种情况，我该如何修复这种行为？

Answer

【以下的回答经过翻译处理】 嗨@mfolusiak，

感谢您提供的信息。根据您的submit_args，任务提交命令使用“-l ncpus=2”来指定vCPU数量，如果您将资源参数替换为“-l nodes=1:ppn=2”，该资源参数将解决负载过载问题，并根据实例vCPU容量将作业分配给不同的实例。

nodes-指定应分配的独立节点数

ppn-为每个节点分配多少个进程

~Yulei

编辑：yulei-AWS于2021年2月12日下午4:02

当任务数量超过处理器数量时，Parallelcluster torque节点超载。

Relevanter Inhalt