Linux下如何部署Llama 3

AI技术
小华
2026-01-12

Linux下部署 Llama 3 实操指南
一 环境准备与版本选择

  • 硬件建议
  • CPU模式:至少16GB 内存可运行8B参数模型;更高并发或更大上下文需增加内存。
  • GPU模式:运行8B建议≥16GB 显存70B建议使用A100 80GBH100等高端GPU。若显存不足,可采用量化或更小的模型版本。
  • 模型版本
  • 常用标签:llama3:8b(通用对话、性价比高)、llama3:70b(更强推理能力,资源占用大)。可按需选择指令版或基础版。

二 使用 Ollama 快速部署

  • 安装 Ollama
  • 一键安装脚本(Linux):执行:curl -fsSL https://ollama.com/install.sh | sh。安装完成后可直接使用 ollama 命令。
  • 拉取并运行模型
  • 拉取:ollama pull llama3:8b
  • 运行:ollama run llama3:8b(首次会自动下载并进入交互界面,按 Ctrl+D 退出)。
  • 验证服务与 API
  • 本地 API 测试:curl http://localhost:11434/api/generate -d '{"model":"llama3:8b","prompt":"用一句话描述Linux","stream":false}'
  • 健康检查:curl http://localhost:11434,页面应返回 “Ollama is running”

三 远程访问与常用配置

  • 允许远程访问
  • 编辑服务文件:sudo systemctl edit --full ollama 或手动编辑 /etc/systemd/system/ollama.service
  • [Service] 下添加:Environment="OLLAMA_HOST=0.0.0.0:11434"(如需跨域可加 Environment="OLLAMA_ORIGINS=*"
  • 重新加载并重启:sudo systemctl daemon-reload && sudo systemctl restart ollama
  • 注意:开放到公网前务必配置防火墙/反向代理/鉴权,避免未授权访问。
  • 自定义模型存放路径(可选)
  • 设置环境变量:Environment="OLLAMA_MODELS=/data/ollama/models"(路径需可写,重启服务生效)。
  • 端口与连通性检查
  • 查看端口:ss -ltnp | grep 11434netstat -tulpn | grep 11434
  • 若端口被占用:lsof -i :11434 找到 PID 后 kill ,再重启服务。

四 部署 Open WebUI 可视化界面

  • Docker 快速启动
  • 本机(客户端)运行:docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
  • 服务器部署:docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://服务器IP:11434 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
  • 国内镜像加速(可选):将镜像替换为 ghcr.nju.edu.cn/open-webui/open-webui:main
  • 首次使用
  • 浏览器访问:http://localhost:3000http://服务器IP:3000
  • 注册登录后,在设置中将 Ollama 基础 URL 设为 http://host.docker.internal:11434(本机)或 http://服务器IP:11434(服务器),页面会自动发现模型,选择 llama3 即可开始对话。

五 GPU 加速与性能优化

  • 环境准备
  • 操作系统推荐 Ubuntu 20.04/22.04,安装NVIDIA 驱动CUDA(如 CUDA 11.8 或更高版本),确保 nvidia-smi 正常显示 GPU 信息。
  • 推理优化路径(Transformers 路线,适合需要深度定制/多 GPU 场景)
  • 安装依赖:conda create -n llama3 python=3.10 -y && conda activate llama3
  • PyTorch(CUDA 11.8 示例):pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
  • 其他依赖:pip install transformers accelerate sentencepiece
  • 量化加载示例(4-bit):
  • from transformers import AutoModelForCausalLM, AutoTokenizer
  • import bitsandbytes as bnb
  • model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3-70B-Instruct", load_in_4bit=True, device_map="auto", torch_dtype=torch.float16)
  • 提示:大模型需多 GPU高速存储,并结合批量推理、张量并行等手段提升吞吐。
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序