Linux下部署 Llama 3 实操指南
一 环境准备与版本选择
二 使用 Ollama 快速部署
curl -fsSL https://ollama.com/install.sh | sh。安装完成后可直接使用 ollama 命令。ollama pull llama3:8bollama run llama3:8b(首次会自动下载并进入交互界面,按 Ctrl+D 退出)。curl http://localhost:11434/api/generate -d '{"model":"llama3:8b","prompt":"用一句话描述Linux","stream":false}'curl http://localhost:11434,页面应返回 “Ollama is running”。三 远程访问与常用配置
sudo systemctl edit --full ollama 或手动编辑 /etc/systemd/system/ollama.service[Service] 下添加:Environment="OLLAMA_HOST=0.0.0.0:11434"(如需跨域可加 Environment="OLLAMA_ORIGINS=*")sudo systemctl daemon-reload && sudo systemctl restart ollamaEnvironment="OLLAMA_MODELS=/data/ollama/models"(路径需可写,重启服务生效)。ss -ltnp | grep 11434 或 netstat -tulpn | grep 11434lsof -i :11434 找到 PID 后 kill ,再重启服务。四 部署 Open WebUI 可视化界面
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:maindocker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://服务器IP:11434 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:mainghcr.nju.edu.cn/open-webui/open-webui:main。http://localhost:3000 或 http://服务器IP:3000http://host.docker.internal:11434(本机)或 http://服务器IP:11434(服务器),页面会自动发现模型,选择 llama3 即可开始对话。五 GPU 加速与性能优化
nvidia-smi 正常显示 GPU 信息。conda create -n llama3 python=3.10 -y && conda activate llama3pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118pip install transformers accelerate sentencepiecefrom transformers import AutoModelForCausalLM, AutoTokenizerimport bitsandbytes as bnbmodel = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3-70B-Instruct", load_in_4bit=True, device_map="auto", torch_dtype=torch.float16)