AIRobot

AIRobot quick note


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 搜索

神威太湖之光基本操作

发表于 2018-11-16 更新于 2019-01-02 分类于 未分类
本文字数: 2.1k 阅读时长 ≈ 2 分钟

系统基本组成

系统总体架构

系统总体架构

国产计算系统架构与参数

系统架构与参数

神威基础众核编译软件

基础众核编译软件

神威MPI编译软件

MPI编译软件

商用计算系统主要参数

系统主要参数

商用计算系统编译软件

系统编译软件

作业管理

“神威·太湖之光”以下简称为“神威”

qload

用 qload 命令即可查询出节点对应的状态,也能查出节点队列的名称为q_sw_expr

“神威”系统提供两类计算资源:国产高速计算系统(申威26010异构众核)和商用辅助计算系统(Intel Xeon),因此计算资源分成两个资源队列:

  • 高速计算系统:q_sw_xxxx,系统缺省队列:q_sw_expr

  • 辅助计算系统:q_x86_xxxx,系统确幸队列:q_x86_expr
    队列资源限制条件:

  • 每个任务的并行规模不能超过64

  • 每个任务的计算墙钟时间不能超过1小时
    资源队列
    国产计算系统举例:

    1
    bsub -I -b -q q_sw_expr -host_stack 1024 -share_size 6500 -n 128 -np 4 -cgsp 1 ./wrf.exe 2>&1

-q选项为要提交的队列名称,可根据qload查询出的可用队列名称更改; -n为进程数; -np为每个节点启用的核组书; -csgp为每个核组启用的从核个数。

商用计算系统举例:

1
bsub -I -q q_x86_expr -n 4 ./example

:)详细参数说明查文档

  • -h 显示帮助信息
  • -I 提交交互式作业,使作业输出在作业提交窗口,无该选项时为批式作业 -q 向指定的队列中提交作业,必选项
  • -p 在作业输出中打印作业分配的节点列表及位图
  • -exclu | -shared | -cpuexclu 指定使用 CG 独占/CG 共享/CPU 独占模式
  • -n 指定需要的所有主核数
  • -N 指定需要的节点个数
  • -np 指定每节点内使用的主核数
  • -cgsp 指定每个 CG 内需要的从核个数,指定时该参数必须<=64。
  • -asy 指定使用非对称资源,表示各个 CG 内使用的从核的个数可以不同
  • -js 指定作业对应的课题代号
  • -lfs_proj 指定作业使用的局部文件代号
  • -node 指定运行作业的节点(CG 列表)
  • -cross 要求分配全片 CPU(4CG 的 CPU)
  • -health 指定分配资源的健康度级别
  • -o 将作业的 stdout 和 stderr 的输出定向到指定文件,可选项指定每个 switch 中分配的节点数
  • -switchnode 指定每个 switch 中分配的节点数
  • -midnode 指定每个 中板 中分配的节点数
  • -cabnode 指定每个 机舱 中分配的节点数
  • -b 指定从核栈位于局存
  • -share_size 指定核组共享空间大小 -priv_size 指定每个核上私有空间大小
  • -cross_size 指定交叉段大小
  • -ro_size 指定只读空间大小
  • -m value 提供从核自陷模式的控制,指定-m 2时,将浮点控制状态寄存器 fpcr的最后两位设为01,允许除不精确结果之外的所有浮点算术异常自陷, 相当于编译器使用-OPT:IEEE_arith=2选项;指定-m 1时,将fcpr最后两位设 为00,允许所有浮点算术异常自陷,相当于编译器使用-OPT:IEEE_arith=1 选项;其他所有值将不对默认的fpcr进行修改。
  • -pe_stack 指定从核栈空间大小,默认为64K
  • -host_stack 指定主核栈空间大小,默认为 8M

注意事项

  • -I参数与-o参数通常不建议放在一起使用。因为使用-o参数就无法在屏幕输出上看见程序的打印

  • 每道作业提交成功后,都会有一个jobid,这是本作业区别其他作业的唯一特征。

  • 本命令的各种参数都需要在用户程序之前

  • 用户必须在PSN节点上使用

    bjobs作业查询

    用bjobs命令即可查询出当前作业的状态,包括作业号、使用状态、使用者、作业名称、队列名称、运行时间等。

  • -q 指定要查询的队列

  • -l 长格式显示作业详细信息

  • -w 全长度显示,当列值的长度超过列宽时,不按列宽进行截取

  • -a 显示一段时间内的所有作业

  • -u 显示指定用户的作业,all 是特殊的关键字,可显示所有用户的作业信息

  • -d 显示最近正常完成的作业

  • -e 显示最近异常退出的作业

  • -p 显示处于 pend 状态的作业

  • -r 显示正在运行的作业jobid 作业id号
    1)-u 参数只面向管理员开放

2)普通用户只能查看属于本用户的作业的信息

3)对于处于调度状态(pend)的作业,如果作业长时间处理pend状态,可以用bjobs –l jobid 来查看作业不能调度运行的原因。

4)用户在 SN 上使用。

bkill作业终止

  • -h 帮助信息
  • -u 操作指定用户提交的作业
  • -q 操作指定队列内的作业
  • -J 操作指定作业名称的作业
  • -f 当终止批量作业时不需要确认jobId表示作业id标识符

说明:当jobId指定时,忽略-u –q选项

帧差法侦测运动目标
LeetCode 1 两数之和
  • 文章目录
  • 站点概览
AIRobot

AIRobot

AIRobot quick note
130 日志
15 分类
23 标签
GitHub E-Mail
Creative Commons
  1. 1. 系统基本组成
    1. 1.1. 系统总体架构
    2. 1.2. 国产计算系统架构与参数
    3. 1.3. 神威基础众核编译软件
    4. 1.4. 神威MPI编译软件
    5. 1.5. 商用计算系统主要参数
    6. 1.6. 商用计算系统编译软件
  2. 2. 作业管理
    1. 2.1. qload
    2. 2.2. bjobs作业查询
    3. 2.3. bkill作业终止
0%
© 2023 AIRobot | 716k | 10:51