Appearance
5. 系统修改描述
本文档内容
在使用PODsys部署集群的过程中,我们在原版的系统上做了一些修改,这些修改在本文档中进行了记录。
TIP
非特殊说明,则修改对于计算节点和管理节点是一致的。
5.1 系统安装过程中的修改
卸载 unattended-upgrades 模块,避免系统 apt 自动更新。
安装 docker、nfs、ipmitools、cpupower、ib驱动和nvidia驱动的依赖等。
安装ib驱动,设置 openibd服务自启动,在管理节点开启opensmd 服务。
禁用 nouveau 驱动,安装NVIDIA驱动。
将 Load nvidia_peermem module 写成常驻服务。
txt
[Unit]
Description=Load nvidia_peermem Module
After=network.target
[Service]
ExecStart=/sbin/modprobe nvidia_peermem
[Install]
WantedBy=multi-user.target- 将 nvidia-smi -pm 1 写成常驻服务。
txt
[Unit]
Description=Enable nvidia-persistenced
[Service]
Type=oneshot
ExecStart=/usr/bin/nvidia-smi -pm 1
RemainAfterExit=yes
[Install]
WantedBy=default.target- 安装CUDA,将 CUDA 的 bin 目录添加到系统环境变量 PATH 中。
- 将 CUDA 的 lib64 目录添加到系统环境变量 LD_LIBRARY_PATH 中。
txt
export PATH=$PATH:/usr/local/cuda/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64- 在以下配置文件中加入内容。
txt
* soft memlock unlimited
* hard memlock unlimited
root soft nofile 65536
root hard nofile 65536
* soft nofile 65536
* hard nofile 65536
* soft stack unlimited
* soft nproc unlimited
* hard stack unlimited
* hard nproc unlimitedlimits.conf 新增内容的作用
设置进程可以锁定任意数量的内存,文档描述符数量设置为65536,进程可以使用任意大小的堆栈,解除系统上的进程数量限制。
- 在 /etc/podsys-release 中加入 podsys 版本信息。
5.2 并行服务配置过程中的修改
- 配置 nfs 服务
bash
[share directory] *(rw,async,insecure,no_root_squash)