Linux系统中Llama3的安装技巧

AI技术
小华
2025-12-07

Linux 上安装 Llama 3 的高效做法与实用技巧
一 安装路径选型

  • 快速一条龙:使用官方安装脚本,自动部署二进制、创建 ollama 用户与 systemd 服务,API 默认监听 127.0.0.1:11434。命令:curl -fsSL https://ollama.com/install.sh | sh。适合新手与快速试用。
  • 可控路径部署:下载 Linux 包并解压到自定义目录(如 /opt/ollama),手动编写 systemd 服务并设置环境变量(如 OLLAMA_MODELS)以指定模型存放位置,便于多盘与权限管理。
  • 容器化隔离:直接用 Docker 运行 Open WebUI,并通过环境变量 OLLAMA_BASE_URL 连接宿主机或远程的 Ollama 服务,适合不想污染系统环境的场景。

二 服务化与远程访问

  • 启用服务:sudo systemctl daemon-reload && sudo systemctl enable --now ollama
  • 远程访问:编辑 /etc/systemd/system/ollama.service,在 [Service] 下添加 Environment="OLLAMA_HOST=0.0.0.0:11434";如需跨域,可加 Environment="OLLAMA_ORIGINS=*",然后 sudo systemctl restart ollama
  • 连通性自检:
  • 本机:curl http://127.0.0.1:11434,应返回 Ollama is running
  • 远程:curl http://服务器IP:11434,若不通,检查防火墙/云安全组是否放行 11434/tcp

三 模型拉取与运行

  • 命令行一键使用:ollama run llama3(首次会自动拉取并进入交互),或先 ollama pull llama3 再运行。
  • 指定参数规模:ollama run llama3:70b(显存建议 ≥48GB 级别);显存不足时先用 8B 版本。
  • 常用管理命令:ollama listollama rm ollama show ,与 Docker 风格一致,便于日常运维。

四 GPU 与显存优化

  • 无 NVIDIA/AMD 驱动时,Ollama 会提示并自动以 CPU-only 模式运行;如需 GPU 加速,请安装对应驱动与工具链,确保 nvidia-smi 正常。
  • 显存不足的对策:
  • 选用更小的模型(如 8B 而非 70B)。
  • 关闭占用显存的其他进程,或降低并发/批量参数(在自建推理脚本中可调 max_batch_size、使用张量并行等)。
  • 环境自检:执行 nvidia-smi 确认驱动与显存状态;若频繁 OOM,优先换小模型或改用 CPU 模式。

五 Web 界面与 API 集成

  • Open WebUI 快速部署(Docker):
  • 服务端:docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://服务器IP:11434 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
  • 客户端:docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
  • 访问 http://localhost:3000http://服务器IP:3000,在设置中确认 Ollama 基础 URLhttp://host.docker.internal:11434(客户端)或 http://服务器IP:11434(服务端)。
  • API 调用示例:
  • 文本补全:curl http://127.0.0.1:11434/api/generate -d '{"model":"llama3","prompt":"Hello, Llama 3!","stream":false}'
  • 对话补全:curl http://127.0.0.1:11434/api/chat -d '{ "model":"llama3", "messages":[{"role":"user","content":"你好"}] }'
  • 常见问题速排:
  • 端口占用:netstat -tulpn | grep 11434 查进程并释放端口。
  • 下载缓慢或中断:重试 ollama run llama3;必要时更换网络或在稳定时段执行。
  • 容器连不通宿主机:确认 OLLAMA_BASE_URLOLLAMA_HOST 配置正确,且防火墙放行 11434
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序