Skip to content

5. 系统修改描述

本文档内容

在使用PODsys部署集群的过程中,我们在原版的系统上做了一些修改,这些修改在本文档中进行了记录。

TIP

非特殊说明,则修改对于计算节点和管理节点是一致的。

5.1 系统安装过程中的修改

  • 卸载 unattended-upgrades 模块,避免系统 apt 自动更新。

  • 安装 docker、nfs、ipmitools、cpupower、ib驱动和nvidia驱动的依赖等。

  • 安装ib驱动,设置 openibd服务自启动,在管理节点开启opensmd 服务。

  • 禁用 nouveau 驱动,安装NVIDIA驱动。

  • 将 Load nvidia_peermem module 写成常驻服务。

txt
[Unit]
Description=Load nvidia_peermem Module
After=network.target

[Service]
ExecStart=/sbin/modprobe nvidia_peermem

[Install]
WantedBy=multi-user.target
  • 将 nvidia-smi -pm 1 写成常驻服务。
txt
[Unit]
Description=Enable nvidia-persistenced

[Service]
Type=oneshot
ExecStart=/usr/bin/nvidia-smi -pm 1
RemainAfterExit=yes

[Install]
WantedBy=default.target
  • 安装CUDA,将 CUDA 的 bin 目录添加到系统环境变量 PATH 中。
  • 将 CUDA 的 lib64 目录添加到系统环境变量 LD_LIBRARY_PATH 中。
txt
export PATH=$PATH:/usr/local/cuda/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64
  • 在以下配置文件中加入内容。
txt
* soft memlock unlimited
* hard memlock unlimited
root soft nofile 65536
root hard nofile 65536
* soft nofile 65536
* hard nofile 65536
* soft stack unlimited
* soft nproc unlimited
* hard stack unlimited
* hard nproc unlimited

limits.conf 新增内容的作用

设置进程可以锁定任意数量的内存,文档描述符数量设置为65536,进程可以使用任意大小的堆栈,解除系统上的进程数量限制。

  • 在 /etc/podsys-release 中加入 podsys 版本信息。
  • 添加 iommu.passthrough=1
txt
GRUB_CMDLINE_LINUX="$GRUB_CMDLINE_LINUX iommu.passthrough=1"

5.2 并行服务配置过程中的修改

  • 配置 nfs 服务
bash
[share directory]  *(rw,async,insecure,no_root_squash)

Copyright © 2025 The PODsys Project. All rights reserved.