安装特定版本的 CUDA
在 Olares 上运行 GPU 应用时,宿主机需要安装 NVIDIA 驱动,应用容器需要 CUDA 运行时。Olares 官方维护最新版本的驱动以支持最前沿的 AI 应用。但在以下场景中,你可能需要安装其他版本:
- 某些应用或 AI 模型依赖特定的 CUDA 或驱动版本才能运行。
- 你希望固定版本以保持稳定性,避免自动升级。
- 最新驱动与你的工作负载存在兼容性问题。
学习目标
通过本教程,你将学会:
- 查看 Olares 宿主机上当前的 CUDA 和驱动版本。
- 从 runfile 下载并安装特定版本的 NVIDIA 驱动。
- 安装新驱动后在 Olares 中更新 GPU 状态。
前提条件
开始前,请确保你的环境满足以下要求:
- 一台已启用 GPU 支持的 Olares 设备
- 兼容的 NVIDIA GPU
- 对 Olares 宿主机的 root 或 sudo 权限
查看当前 CUDA 版本
在 Olares 宿主机上运行以下命令,查看当前的驱动版本和 CUDA 版本:
bash
nvidia-smi示例输出:
bash
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 590.44.01 Driver Version: 590.44.01 CUDA Version: 13.1 |
+-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 4060 Ti Off | 00000000:01:00.0 Off | N/A |
| 0% 41C P8 8W / 165W | 11256MiB / 16380MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| 0 N/A N/A 60935 C ./koboldcpp 242MiB |
+-----------------------------------------------------------------------------------------+在这个示例中,当前驱动版本为 590.44.01,CUDA 版本为 13.1。
TIP
如果你只知道目标 CUDA 版本,可以在 NVIDIA CUDA 发行说明中查找对应的驱动版本。
下载并安装驱动
步骤 1:下载驱动 runfile
访问 NVIDIA 驱动下载页面。
选择你的 GPU 产品类型、系列和型号,并将操作系统选为 Linux 64-bit。
点击 Find,记录结果中显示的驱动版本号。例如,
580.95.05,对应的 CUDA 版本为 13.0。在 Olares 宿主机上,运行以下命令下载 runfile。将
580.95.05替换为你查到的驱动版本号:bashVERSION=580.95.05 curl -sSOL https://us.download.nvidia.com/XFree86/Linux-x86_64/${VERSION}/NVIDIA-Linux-x86_64-${VERSION}.runbashVERSION=580.95.05 wget https://us.download.nvidia.com/XFree86/Linux-x86_64/${VERSION}/NVIDIA-Linux-x86_64-${VERSION}.run赋予 runfile 可执行权限:
bashchmod +x NVIDIA-Linux-x86_64-580.95.05.run
步骤 2:执行安装
使用 root 权限运行 runfile:
bashsudo ./NVIDIA-Linux-x86_64-580.95.05.run当安装程序提示选择内核模块类型时,选择 NVIDIA Proprietary。
根据屏幕提示继续安装,直到系统提示重启。
重启宿主机:
bashsudo reboot now
必须重启
安装驱动后必须重启宿主机,更改才能生效。
步骤 3:更新 Olares GPU 状态
宿主机重启后,执行以下命令以更新 Olares 中该节点的 CUDA 和驱动版本信息:
bash
olares-cli gpu enable步骤 4:确认安装成功
运行以下命令检查新的 CUDA 版本是否生效:
bash
nvidia-smi安装成功后,输出中会显示已安装的驱动版本和 CUDA 版本。例如:
bash
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.95.05 Driver Version: 580.95.05 CUDA Version: 13.0 |
+-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 4060 Ti Off | 00000000:01:00.0 Off | N/A |
| 0% 41C P0 28W / 165W | 0MiB / 16380MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| No running processes found |
+-----------------------------------------------------------------------------------------+在这个示例中,CUDA 版本为 13.0,驱动版本为 580.95.05。