前言
2023年中的时候突然想本地部署下大模型玩玩,于是某宝700购入了1块TeslaP40,可以上一张双槽显卡,此外P40还需要单独一根8pin转8pin的供电线。
部署环境如下:
- 宿主机:ESXI 6.7
- 虚拟机:Ubuntu22.04 Server
- NVIDIA-SMI:535.154.05
- CUDA Version: 12.2
显卡直通
前置条件
设备切换直通
ESXI的显卡直通很简单,只需要在硬件里面选中然后点击切换直通就好了,需要重新引导主机下

为需要直通的虚拟机分配PCI设备

在虚拟机选项->高级->编辑配置 添加参数
字段 |
值 |
pciPassthru.use64bitMMIO |
TRUE |
pciPassthru.64bitMMIOSizeGB |
64 |
hypervisor.cpuid.v0 |
FALSE |


显卡驱动
禁用nouveau驱动
在最后一行添加 blacklist nouveau
1
|
sudo vim /etc/modprobe.d/blacklist.conf
|
更新驱动
1
|
sudo update-initramfs -u
|
重启
查看是否禁用成功
卸载之前安装的驱动
查看所有与nvidia有关的包
1
|
dpkg -l | grep -i nvidia
|
卸载包
1
2
|
sudo apt-get --purge remove nvidia*
sudo apt-get --purge remove libnvidia*
|
安装依赖
1
2
3
|
sudo apt update
sudo apt install gcc
sudo apt install dkms build-essential linux-headers-generic
|
安装NVIDIA驱动
从官方驱动 | NVIDIA下载驱动文件
1
2
3
4
5
|
wget https://us.download.nvidia.cn/tesla/535.154.05/NVIDIA-Linux-x86_64-535.154.05.run
chmod +x NVIDIA-Linux-x86_64-535.154.05.run
sudo ./NVIDIA-Linux-x86_64-535.154.05.run --no-opengl-files --no-x-check --no-nouveau-check
|
查看是否安装成功

部署模型
ChatGLM3
官方GitHub:THUDM/ChatGLM3: ChatGLM3 series: Open Bilingual Chat LLMs | 开源双语对话语言模型 (github.com)
前置条件
安装git
1
|
sudo apt-get install git-lfs
|
pip更换为清华源
1
|
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
|
安装anaconda并配置国内源
1
|
wget --user-agent=“Mozilla” https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2023.09-0-Linux-x86_64.sh
|
1
|
sudo chmod 777 Anaconda3-2023.09-0-Linux-x86_64.sh
|
1
|
sudo sh Anaconda3-2023.09-0-Linux-x86_64.sh
|
1
|
conda config --set show_channel_urls yes
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
channels:
- defaults
show_channel_urls: true
default_channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
pytorch-lts: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
|
拉取源码
1
|
git clone https://github.com/THUDM/ChatGLM3
|
拉取模型
会很大,预留50GB+的空间
1
|
git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git
|
安装依赖
创建虚拟环境
查看环境
激活环境
1
|
conda activate chatglm3
|
安装依赖
1
|
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
|
注意在创建的conda环境中安装

运行模型
需要注意demo文件中的模型文件路径是否和拉取下来模型文件的路径一致

1
2
|
cd basic_demo
python cli_demo.py
|

温度爆炸~
显卡散热问题
拆除后挡板


在室温14°和IDRAC风扇转速4800的情况下运行ChatGLM3




加装风扇
P40是被动散热所以导致了它的温度只能靠风道或者外挂风扇去解决,但是R730 给P40预留的位置非常小,P40的下方基本上只有1CM,和导流罩之间只有6CM左右。


研究中~
注意事项
- 如果点击切换了直通且重启了,发现直通项还是没有显示“活动”,可能没有开启BIOS的
above 4GB或者ESXI的版本不支持P40直通

Windows:安装显卡驱动卡住,且无法连接远程,windows强制关机后无法进入系统一直转logo
Linux:成功安装但是nvidia-smi提示No devices were found
- 无法启动虚拟机加载到42%提示失败
需要在虚拟机选项中添加参数
字段 |
值 |
pciPassthru.use64bitMMIO |
TRUE |
pciPassthru.64bitMMIOSizeGB |
64 |
hypervisor.cpuid.v0 |
FALSE |
- 重启Ubuntu nvidia-smi提示"ubuntu NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running."
输入以下命令
1
2
3
|
sudo apt-get install dkms
sudo dkms install -m nvidia -v 535.154.05
|
参考文章