Skip to content

7. 已知问题与故障处理

TIP

当进行 PODsys 部署出现问题,或者部署之后出现异常,可以查看本节的故障处理方法。

7.1 计算节点进入PXE出现异常

1. docker容器交互式命令行输入

shell
cat /workspace/log/dnsmasq.log

检查 DHCP 服务是否为计算节点分配IP地址

2. 计算节点没有分配到IP地址

  • 检查管理节点的防火墙是否开启,如果开启,请关闭。

  • config.yaml 文件中配置文件中的 dhcp_s - dhcp_e 太小。退出容器,修改 config.yaml,重新启动容器。

3. 计算节点分配到IP,但是下载文件出错

  • 检查管理节点网口的IP地址是否与 dhcp_s - dhcp_e 在同一网段。

  • 显示 NBP filesize is 0 Bytes,可能原因有交换机划分了VLAN或其它配置导致无法传输文件,网卡损坏或网卡不支持PXE。

检查方法

将存在问题的计算节点和管理节点直连。

7.2 计算节点安装过程中卡住

  • 通过 PODsys 监控界面查看计算节点安装状态。如果计算节点在检测到硬盘不在位情况(Disk 出现 ),请检查机器。

  • 如果硬盘(Disk)已经是 ,然后安装卡住,可能是因为节点的非目标硬盘上存在另一个系统。例如:目标 sda,但是 sdb 存在系统。原因是 ubuntu-vg-1 名字冲突。

解决办法

  • 删除节点非目标硬盘上的系统。
  • 修改 /user-data/user-data 中的 ubuntu-vg-1 为 ubuntu-vg-2。

7.3 部署完成后的异常处理

  • NVIDIA 驱动版本和 nv-fabricmanager 版本要保持一致。如果手动升级驱动,不要忘记同步升级 nv-fabricmanager。

Copyright © 2025 The PODsys Project. All rights reserved.