在Linux上如何更新Llama3版本 - AI技术

在 Linux 上更新 Llama 3 的可行路径

若你通过 Ollama 使用 Llama 3，更新分为两步：更新 Ollama 服务/二进制 与更新 模型版本/标签。
若你直接拉取 Hugging Face/ModelScope 的 GGUF 模型并用 vLLM 等推理引擎运行，则更新对应为：拉取新权重并重启服务。
若你使用 Docker 运行 Ollama，需重建或重启容器以获取新版镜像/模型。

更新 Ollama 本体

脚本一键更新（推荐）：
执行：curl -fsSL https://ollama.com/install.sh | sh
该脚本会拉取并替换最新 Ollama 二进制，已安装的旧版会被覆盖。
指定版本安装（可选）：
示例：curl -fsSL https://ollama.com/install.sh | OLLAMA_VERSION=0.1.32 sh
二进制手动替换：
下载：sudo curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/bin/ollama
赋权：sudo chmod +x /usr/bin/ollama
作为 systemd 服务运行时的建议流程：
重启服务：sudo systemctl restart ollama
查看状态/日志：sudo systemctl status ollama、journalctl -e -u ollama

更新 Llama 3 模型

使用 Ollama 库模型
拉取最新版：ollama pull llama3（默认 8B），或指定规模：ollama pull llama3:70b
运行即拉取：ollama run llama3
查看本地模型：ollama list；如需回退/清理旧版，可先 ollama rm <模型名> 再拉取新版本。
使用第三方或中文微调版（示例）
拉取并运行：ollama run wangshenzhi/llama3-8b-chinese-chat-ollama-q8（会自动拉取最新 manifest 与权重）。
使用 GGUF + vLLM（Hugging Face/ModelScope）
更新权重：进入模型目录，确保已安装 Git LFS，执行 git lfs pull 拉取最新权重文件。
重启服务：例如 CUDA_VISIBLE_DEVICES=0,1 vllm serve --dtype bfloat16 ...（按需调整并行与显存参数）。
使用 Docker 运行 Ollama
若基础镜像更新：重新构建或拉取新镜像后启动容器。
若仅更新模型：进入运行中的容器执行 ollama pull llama3，或重启容器以加载新权重。

验证与回退建议

常见问题与处理

拉取缓慢或中断：更换网络、使用国内镜像/代理，或分片重新拉取（GGUF 场景用 git lfs pull）。
显存不足：选择更小模型（如 8B 或量化版本），或减少并发/并行度（vLLM 的 --tensor_parallel_size、--gpu_memory_utilization）。
端口冲突：修改服务端口（如 Ollama 默认 11434 或 vLLM 的 8000）并同步客户端配置。
容器环境更新：确保卷挂载正确（如将宿主机的模型目录挂载到容器内），并在镜像/模型更新后重启容器。