系统基本组成
系统总体架构
国产计算系统架构与参数
神威基础众核编译软件
神威MPI编译软件
商用计算系统主要参数
商用计算系统编译软件
作业管理
“神威·太湖之光”以下简称为“神威”
qload
用 qload 命令即可查询出节点对应的状态,也能查出节点队列的名称为q_sw_expr
“神威”系统提供两类计算资源:国产高速计算系统(申威26010异构众核)和商用辅助计算系统(Intel Xeon),因此计算资源分成两个资源队列:
高速计算系统:q_sw_xxxx,系统缺省队列:q_sw_expr
辅助计算系统:q_x86_xxxx,系统确幸队列:q_x86_expr
队列资源限制条件:每个任务的并行规模不能超过64
每个任务的计算墙钟时间不能超过1小时
国产计算系统举例:1
bsub -I -b -q q_sw_expr -host_stack 1024 -share_size 6500 -n 128 -np 4 -cgsp 1 ./wrf.exe 2>&1
-q选项为要提交的队列名称,可根据qload查询出的可用队列名称更改; -n为进程数; -np为每个节点启用的核组书; -csgp为每个核组启用的从核个数。
商用计算系统举例:
1 | bsub -I -q q_x86_expr -n 4 ./example |
:)详细参数说明查文档
- -h 显示帮助信息
- -I 提交交互式作业,使作业输出在作业提交窗口,无该选项时为批式作业 -q 向指定的队列中提交作业,必选项
- -p 在作业输出中打印作业分配的节点列表及位图
- -exclu | -shared | -cpuexclu 指定使用 CG 独占/CG 共享/CPU 独占模式
- -n 指定需要的所有主核数
- -N 指定需要的节点个数
- -np 指定每节点内使用的主核数
- -cgsp 指定每个 CG 内需要的从核个数,指定时该参数必须<=64。
- -asy 指定使用非对称资源,表示各个 CG 内使用的从核的个数可以不同
- -js 指定作业对应的课题代号
- -lfs_proj 指定作业使用的局部文件代号
- -node 指定运行作业的节点(CG 列表)
- -cross 要求分配全片 CPU(4CG 的 CPU)
- -health 指定分配资源的健康度级别
- -o 将作业的 stdout 和 stderr 的输出定向到指定文件,可选项指定每个 switch 中分配的节点数
- -switchnode 指定每个 switch 中分配的节点数
- -midnode 指定每个 中板 中分配的节点数
- -cabnode 指定每个 机舱 中分配的节点数
- -b 指定从核栈位于局存
- -share_size 指定核组共享空间大小 -priv_size 指定每个核上私有空间大小
- -cross_size 指定交叉段大小
- -ro_size 指定只读空间大小
- -m value 提供从核自陷模式的控制,指定-m 2时,将浮点控制状态寄存器 fpcr的最后两位设为01,允许除不精确结果之外的所有浮点算术异常自陷, 相当于编译器使用-OPT:IEEE_arith=2选项;指定-m 1时,将fcpr最后两位设 为00,允许所有浮点算术异常自陷,相当于编译器使用-OPT:IEEE_arith=1 选项;其他所有值将不对默认的fpcr进行修改。
- -pe_stack 指定从核栈空间大小,默认为64K
- -host_stack 指定主核栈空间大小,默认为 8M
注意事项
-I参数与-o参数通常不建议放在一起使用。因为使用-o参数就无法在屏幕输出上看见程序的打印
每道作业提交成功后,都会有一个jobid,这是本作业区别其他作业的唯一特征。
本命令的各种参数都需要在用户程序之前
用户必须在PSN节点上使用
bjobs作业查询
用bjobs命令即可查询出当前作业的状态,包括作业号、使用状态、使用者、作业名称、队列名称、运行时间等。
-q 指定要查询的队列
-l 长格式显示作业详细信息
-w 全长度显示,当列值的长度超过列宽时,不按列宽进行截取
-a 显示一段时间内的所有作业
-u 显示指定用户的作业,all 是特殊的关键字,可显示所有用户的作业信息
-d 显示最近正常完成的作业
-e 显示最近异常退出的作业
-p 显示处于 pend 状态的作业
-r 显示正在运行的作业jobid 作业id号
1)-u 参数只面向管理员开放
2)普通用户只能查看属于本用户的作业的信息
3)对于处于调度状态(pend)的作业,如果作业长时间处理pend状态,可以用bjobs –l jobid 来查看作业不能调度运行的原因。
4)用户在 SN 上使用。
bkill作业终止
- -h 帮助信息
- -u 操作指定用户提交的作业
- -q 操作指定队列内的作业
- -J 操作指定作业名称的作业
- -f 当终止批量作业时不需要确认jobId表示作业id标识符
说明:当jobId指定时,忽略-u –q选项