Featured image of post Dell R730XD安装Tesla P40并部署ChatGLM3-6B

Dell R730XD安装Tesla P40并部署ChatGLM3-6B

在ESXI6.7 Ubuntu22.04 Server 中 部署模型

前言

2023年中的时候突然想本地部署下大模型玩玩,于是某宝700购入了1块TeslaP40,可以上一张双槽显卡,此外P40还需要单独一根8pin转8pin的供电线。

部署环境如下:

  • 宿主机:ESXI 6.7
  • 虚拟机:Ubuntu22.04 Server
  • NVIDIA-SMI:535.154.05
  • CUDA Version: 12.2

显卡直通

前置条件

设备切换直通

ESXI的显卡直通很简单,只需要在硬件里面选中然后点击切换直通就好了,需要重新引导主机下

管理->硬件->点击切换直通按钮

为需要直通的虚拟机分配PCI设备 选中虚拟硬件->PCI设备->预留所有内存

在虚拟机选项->高级->编辑配置 添加参数

字段
pciPassthru.use64bitMMIO TRUE
pciPassthru.64bitMMIOSizeGB 64
hypervisor.cpuid.v0 FALSE

添加pciPassthru.use64bitMMIO和pciPassthru.64bitMMIOSizeGB

添加hypervisor.cpuid.v0

显卡驱动

禁用nouveau驱动

在最后一行添加 blacklist nouveau

1
sudo vim /etc/modprobe.d/blacklist.conf

更新驱动

1
sudo update-initramfs -u

重启

1
reboot

查看是否禁用成功

1
lsmod | grep nouveau

卸载之前安装的驱动

查看所有与nvidia有关的包

1
dpkg -l | grep -i nvidia  

卸载包

1
2
sudo apt-get --purge remove nvidia*  
sudo apt-get --purge remove libnvidia* 

安装依赖

1
2
3
sudo apt update 
sudo apt install gcc
sudo apt install dkms build-essential linux-headers-generic

安装NVIDIA驱动

官方驱动 | NVIDIA下载驱动文件

1
2
3
4
5
wget https://us.download.nvidia.cn/tesla/535.154.05/NVIDIA-Linux-x86_64-535.154.05.run

chmod +x NVIDIA-Linux-x86_64-535.154.05.run

sudo ./NVIDIA-Linux-x86_64-535.154.05.run --no-opengl-files --no-x-check --no-nouveau-check

查看是否安装成功

1
nvidia-smi

nvidia显卡信息

部署模型

ChatGLM3

官方GitHub:THUDM/ChatGLM3: ChatGLM3 series: Open Bilingual Chat LLMs | 开源双语对话语言模型 (github.com)

前置条件

安装git

1
sudo apt install git
1
sudo apt-get install git-lfs
1
git init
1
git lfs install

pip更换为清华源

1
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

安装anaconda并配置国内源

1
wget --user-agent=“Mozilla” https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2023.09-0-Linux-x86_64.sh
1
sudo chmod 777 Anaconda3-2023.09-0-Linux-x86_64.sh
1
sudo sh Anaconda3-2023.09-0-Linux-x86_64.sh
1
conda config --set show_channel_urls yes
1
cd root/anaconda3
1
vi ~/.condarc
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
channels:
  - defaults
show_channel_urls: true
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch-lts: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

拉取源码

1
git clone https://github.com/THUDM/ChatGLM3

拉取模型

会很大,预留50GB+的空间

1
git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git

安装依赖

创建虚拟环境

1
conda create chatglm3

查看环境

1
conda info --envs

激活环境

1
conda activate chatglm3

安装依赖

1
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

注意在创建的conda环境中安装 当前conda环境

运行模型

需要注意demo文件中的模型文件路径是否和拉取下来模型文件的路径一致 demo文件的模型文件路径

1
2
cd basic_demo
python cli_demo.py

chatglm运行成功提示

nvidia显卡信息 温度爆炸~

显卡散热问题

拆除后挡板

R730XD尾部

后挡板

在室温14°和IDRAC风扇转速4800的情况下运行ChatGLM3

  • 待机:73°
  • 有负载:85°

当前气温

当前风扇速度

nvidia显卡信息

nvidia显卡信息

加装风扇

P40是被动散热所以导致了它的温度只能靠风道或者外挂风扇去解决,但是R730 给P40预留的位置非常小,P40的下方基本上只有1CM,和导流罩之间只有6CM左右。

显卡侧边照

显卡和导流罩间距

研究中~

注意事项

  • 如果点击切换了直通且重启了,发现直通项还是没有显示“活动”,可能没有开启BIOS的 above 4GB或者ESXI的版本不支持P40直通

R730XD官方PDF

  • 虚拟机引导需要是UEFI,否则无法安装驱动或卡住

Windows:安装显卡驱动卡住,且无法连接远程,windows强制关机后无法进入系统一直转logo Linux:成功安装但是nvidia-smi提示No devices were found

  • 无法启动虚拟机加载到42%提示失败 需要在虚拟机选项中添加参数
字段
pciPassthru.use64bitMMIO TRUE
pciPassthru.64bitMMIOSizeGB 64
hypervisor.cpuid.v0 FALSE
  • 重启Ubuntu nvidia-smi提示"ubuntu NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running."

输入以下命令

1
2
3
sudo apt-get install dkms

sudo dkms install -m nvidia -v 535.154.05

参考文章

小破站已苟活 0
苏ICP备19074929号    苏ICP备19074929号-1 苏公网安备32058202011157
Built with Hugo
主题 StackJimmy 设计