Linux环境下如何部署Llama 3

AI技术
小华
2026-01-05

Linux环境部署 Llama 3 实操指南
一 环境准备与硬件建议

  • 操作系统:建议使用 Ubuntu 20.04/22.04 LTS 或其他主流发行版,已安装 Docker(如需 Web 界面)。
  • 硬件基线:
  • CPU 模式:推荐 ≥10 核 CPU + 16GB 内存(运行 8B 参数模型)。
  • GPU 加速:建议 NVIDIA 显卡,CUDA ≥ 12.2(如 A10 等),显存越大推理越稳。
  • 磁盘空间:为模型与缓存预留 20GB+(8B 模型首次拉取约 4–8GB)。
  • 网络:可访问 Ollama 模型库;国内环境可准备镜像或代理以加速下载。

二 使用 Ollama 快速部署

  • 一键安装 Ollama(Linux):
  • 执行:curl -fsSL https://ollama.com/install.sh | sh
  • 拉取并运行模型:
  • 运行即拉取:ollama run llama3(默认 8B
  • 指定版本:ollama run llama3:70b(需更高显存/内存)
  • 常用命令:
  • 拉取:ollama pull llama3
  • 列表:ollama list
  • 删除:ollama rm llama3
  • 验证服务:
  • 本地:curl http://127.0.0.1:11434,返回 “Ollama is running” 即正常。

三 配置远程访问与自启动

  • 修改服务文件以允许远程访问与自定义模型路径:
  • 编辑:sudo vim /etc/systemd/system/ollama.service
  • [Service] 下添加:
  • Environment="OLLAMA_HOST=0.0.0.0:11434"(允许外网访问)
  • Environment="OLLAMA_MODELS=/opt/ollama/models"(自定义模型目录)
  • 重新加载并启用:
  • sudo systemctl daemon-reload
  • sudo systemctl enable --now ollama
  • 端口检查与占用处理:
  • 检查:sudo ss -tulpn | grep 11434
  • 如冲突:sudo kill sudo systemctl restart ollama
  • 服务器防火墙放行(示例):
  • UFW:sudo ufw allow 11434/tcp
  • firewalld:sudo firewall-cmd --add-port=11434/tcp --permanent && sudo firewall-cmd --reload
  • 外网验证:curl http://<服务器IP>:11434,应返回 “Ollama is running”

四 部署 Open WebUI 可视化界面

  • Docker 启动(推荐):
  • 服务端(同机部署 Ollama):
  • docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://<服务器IP>:11434 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
  • 客户端(浏览器所在机):
  • docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
  • 访问与配置:
  • 浏览器打开:http://localhost:3000http://<服务器IP>:3000
  • 首次注册登录 → 设置 → 连接:确认 Ollama 基础 URLhttp://host.docker.internal:11434(客户端)或 http://<服务器IP>:11434(服务端)
  • 设置 → 语言:可切换为 中文;设置 → 模型:会自动发现已部署的 llama3

五 API 调用与常见问题

  • 本地 API 示例(生成):
  • curl http://127.0.0.1:11434/api/generate -d '{ "model": "llama3", "prompt": "用一句话介绍 Llama 3", "stream": false }'
  • Chat 完成示例:
  • curl http://127.0.0.1:11434/api/chat -d '{ "model": "llama3", "messages": [{"role":"system","content":"你是助手"},{"role":"user","content":"你好"}], "stream": false }'
  • 常见问题速解:
  • 端口冲突:检查 11434 是否被占用,必要时 kill 进程或调整端口映射。
  • 模型下载慢/失败:配置代理或镜像源;也可将模型文件预置到 OLLAMA_MODELS 指定目录。
  • 内网访问不通:确认 OLLAMA_HOST=0.0.0.0:11434 已设置、云服务器安全组/本机防火墙已放行 11434/tcp
  • 显存不足:改用 llama3:8B 或更低参数量模型,或减少并发/上下文长度。
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序