Linux下如何部署Llama 3 - AI技术

Linux下部署 Llama 3 实操指南
一环境准备与版本选择

硬件建议
CPU模式：至少16GB 内存可运行8B参数模型；更高并发或更大上下文需增加内存。
GPU模式：运行8B建议≥16GB 显存；70B建议使用A100 80GB或H100等高端GPU。若显存不足，可采用量化或更小的模型版本。
模型版本
常用标签：llama3:8b（通用对话、性价比高）、llama3:70b（更强推理能力，资源占用大）。可按需选择指令版或基础版。

二使用 Ollama 快速部署

安装 Ollama
一键安装脚本（Linux）：执行：curl -fsSL https://ollama.com/install.sh | sh。安装完成后可直接使用 ollama 命令。
拉取并运行模型
拉取：ollama pull llama3:8b
运行：ollama run llama3:8b（首次会自动下载并进入交互界面，按 Ctrl+D 退出）。
验证服务与 API
本地 API 测试：curl http://localhost:11434/api/generate -d '{"model":"llama3:8b","prompt":"用一句话描述Linux","stream":false}'
健康检查：curl http://localhost:11434，页面应返回 “Ollama is running”。

三远程访问与常用配置

允许远程访问
编辑服务文件：sudo systemctl edit --full ollama 或手动编辑 /etc/systemd/system/ollama.service
在 [Service] 下添加：Environment="OLLAMA_HOST=0.0.0.0:11434"（如需跨域可加 Environment="OLLAMA_ORIGINS=*"）
重新加载并重启：sudo systemctl daemon-reload && sudo systemctl restart ollama
注意：开放到公网前务必配置防火墙/反向代理/鉴权，避免未授权访问。
自定义模型存放路径（可选）
设置环境变量：Environment="OLLAMA_MODELS=/data/ollama/models"（路径需可写，重启服务生效）。
端口与连通性检查
查看端口：ss -ltnp | grep 11434 或 netstat -tulpn | grep 11434
若端口被占用：lsof -i :11434 找到 PID 后 kill ，再重启服务。

四部署 Open WebUI 可视化界面

Docker 快速启动
本机（客户端）运行：docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
服务器部署：docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://服务器IP:11434 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
国内镜像加速（可选）：将镜像替换为 ghcr.nju.edu.cn/open-webui/open-webui:main。
首次使用
浏览器访问：http://localhost:3000 或 http://服务器IP:3000
注册登录后，在设置中将 Ollama 基础 URL 设为 http://host.docker.internal:11434（本机）或 http://服务器IP:11434（服务器），页面会自动发现模型，选择 llama3 即可开始对话。

五 GPU 加速与性能优化

环境准备
操作系统推荐 Ubuntu 20.04/22.04，安装NVIDIA 驱动与CUDA（如 CUDA 11.8 或更高版本），确保 nvidia-smi 正常显示 GPU 信息。
推理优化路径（Transformers 路线，适合需要深度定制/多 GPU 场景）
安装依赖：conda create -n llama3 python=3.10 -y && conda activate llama3
PyTorch（CUDA 11.8 示例）：pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
其他依赖：pip install transformers accelerate sentencepiece
量化加载示例（4-bit）：
from transformers import AutoModelForCausalLM, AutoTokenizer
import bitsandbytes as bnb
model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3-70B-Instruct", load_in_4bit=True, device_map="auto", torch_dtype=torch.float16)
提示：大模型需多 GPU与高速存储，并结合批量推理、张量并行等手段提升吞吐。