离线配置 Llama 3 的完整方案
一 准备与硬件建议
- 硬件基线:运行 Llama 3 8B 建议至少 16GB 内存;运行 70B 建议至少 64GB 内存。有 GPU 会显著提升速度,但 CPU 也可运行。支持 Windows/macOS/Linux。
- 离线所需安装包与镜像:在有网环境提前下载并拷贝到离线机
- Ollama 安装包(Windows 为 .exe,macOS/Linux 为对应安装包)
- OpenWebUI Docker 镜像(导出为 .tar)
- 如需自定义模型:准备 Llama 3 的 GGUF 文件 与对应的 Modelfile(用于 ollama create)
- 目录与模型存放:Ollama 默认模型目录为 C:Users<用户名>.ollamamodels(Windows),可通过环境变量 OLLAMA_MODELS 指定自定义路径,便于离线拷贝与集中管理。
二 离线安装与模型准备
- 安装 Ollama
- Windows:双击安装包完成安装;macOS/Linux:按官方指引安装。安装后在终端执行 ollama -v 验证。
- 如需更改模型存放路径,设置环境变量 OLLAMA_MODELS 指向你的离线目录,再启动 Ollama。
- 方式 A(最简,在线库直连,适用于能短暂联网的预备阶段)
- 在有网机执行:
- 拉取模型:ollama pull llama3:8b(或 llama3:70b)
- 运行验证:ollama run llama3:8b
- 将离线机的 .ollama 目录(或你设置的 OLLAMA_MODELS 目录)整体拷贝到目标离线机相同路径。
- 方式 B(完全离线,基于 GGUF + Modelfile)
- 在 Hugging Face 下载 Llama 3 的 GGUF(如 Llama3.1-8B-Chinese-Chat 的 GGUF),保存到离线机。
- 在同一目录创建 Modelfile(示例):
FROM "E:\models\Llama3.1-8B-Chinese-Chat-f16.gguf"
TEMPLATE """{{- if .System }}<|im_start|>system {{ .System }}<|im_end|>{{- end }}<|im_start|>user{{ .Prompt }}<|im_end|><|im_start|>assistant"""
SYSTEM ""
PARAMETER stop <|im_start|>
PARAMETER stop <|im_end|>
ollama create llama3-cn -f Modelfile
ollama run llama3-cn
- 提示:Llama 3 原生中文能力一般,如需更好中文效果,可使用中文微调版(如 Llama3-Chinese、Llama3.1-8B-Chinese-Chat)。
三 配置 OpenWebUI 提供 Web 界面
- 在有网机安装 Docker,并导出 OpenWebUI 镜像:
- 拉取:docker pull ghcr.io/open-webui/open-webui:main
- 导出:docker save -o open-webui.tar ghcr.io/open-webui/open-webui:main
- 在离线机导入并启动:
docker load -i open-webui.tar
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
- 访问 http://localhost:3000 完成注册登录;在界面中选择 llama3:8b(或你导入的 llama3-cn)即可对话。
- 如采用完全离线方式,请确保 Ollama 服务已在后台运行(如先执行 ollama run llama3:8b 或 ollama run llama3-cn)。
四 常见问题与优化
- 中文效果优化:原生 Llama 3 对中文支持较弱,建议使用 中文微调模型(如 Llama3-Chinese、Llama3.1-8B-Chinese-Chat),导入方式见上文 方式 B。
- 资源与性能:8B 在 16GB 内存 环境可流畅运行;70B 建议 64GB 内存及以上,并优先使用 GPU。
- 模型与数据目录管理:通过 OLLAMA_MODELS 指定模型目录,便于在多盘或离线环境统一存放与迁移。
- 容器连通性:OpenWebUI 容器需能访问 Ollama 服务,启动参数中的 --add-host=host.docker.internal:host-gateway 用于解决容器到宿主机的连通。
- 其他 WebUI 选项:也可使用 LobeChat 等,通过环境变量 OLLAMA_PROXY_URL=http://host.docker.internal:11434/v1 连接本地 Ollama。