Linux环境下如何部署Llama 3 - AI技术

Linux环境部署 Llama 3 实操指南
一环境准备与硬件建议

二使用 Ollama 快速部署

三配置远程访问与自启动

修改服务文件以允许远程访问与自定义模型路径：
编辑：sudo vim /etc/systemd/system/ollama.service
在 [Service] 下添加：
Environment="OLLAMA_HOST=0.0.0.0:11434"（允许外网访问）
Environment="OLLAMA_MODELS=/opt/ollama/models"（自定义模型目录）
重新加载并启用：
sudo systemctl daemon-reload
sudo systemctl enable --now ollama
端口检查与占用处理：
检查：sudo ss -tulpn | grep 11434
如冲突：sudo kill 后 sudo systemctl restart ollama
服务器防火墙放行（示例）：
UFW：sudo ufw allow 11434/tcp
firewalld：sudo firewall-cmd --add-port=11434/tcp --permanent && sudo firewall-cmd --reload
外网验证：curl http://<服务器IP>:11434，应返回 “Ollama is running”。

四部署 Open WebUI 可视化界面

Docker 启动（推荐）：
服务端（同机部署 Ollama）：
docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://<服务器IP>:11434 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
客户端（浏览器所在机）：
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
访问与配置：
浏览器打开：http://localhost:3000 或 http://<服务器IP>:3000
首次注册登录 → 设置 → 连接：确认 Ollama 基础 URL 为 http://host.docker.internal:11434（客户端）或 http://<服务器IP>:11434（服务端）
设置 → 语言：可切换为中文；设置 → 模型：会自动发现已部署的 llama3。

五 API 调用与常见问题

本地 API 示例（生成）：
curl http://127.0.0.1:11434/api/generate -d '{ "model": "llama3", "prompt": "用一句话介绍 Llama 3", "stream": false }'
Chat 完成示例：
curl http://127.0.0.1:11434/api/chat -d '{ "model": "llama3", "messages": [{"role":"system","content":"你是助手"},{"role":"user","content":"你好"}], "stream": false }'
常见问题速解：
端口冲突：检查 11434 是否被占用，必要时 kill 进程或调整端口映射。
模型下载慢/失败：配置代理或镜像源；也可将模型文件预置到 OLLAMA_MODELS 指定目录。
内网访问不通：确认 OLLAMA_HOST=0.0.0.0:11434 已设置、云服务器安全组/本机防火墙已放行 11434/tcp。
显存不足：改用 llama3:8B 或更低参数量模型，或减少并发/上下文长度。