Linux系统中Llama3的安装技巧 - AI技术

Linux 上安装 Llama 3 的高效做法与实用技巧
一安装路径选型

快速一条龙：使用官方安装脚本，自动部署二进制、创建 ollama 用户与 systemd 服务，API 默认监听 127.0.0.1:11434。命令：curl -fsSL https://ollama.com/install.sh | sh。适合新手与快速试用。
可控路径部署：下载 Linux 包并解压到自定义目录（如 /opt/ollama），手动编写 systemd 服务并设置环境变量（如 OLLAMA_MODELS）以指定模型存放位置，便于多盘与权限管理。
容器化隔离：直接用 Docker 运行 Open WebUI，并通过环境变量 OLLAMA_BASE_URL 连接宿主机或远程的 Ollama 服务，适合不想污染系统环境的场景。

二服务化与远程访问

启用服务：sudo systemctl daemon-reload && sudo systemctl enable --now ollama。
远程访问：编辑 /etc/systemd/system/ollama.service，在 [Service] 下添加 Environment="OLLAMA_HOST=0.0.0.0:11434"；如需跨域，可加 Environment="OLLAMA_ORIGINS=*"，然后 sudo systemctl restart ollama。
连通性自检：
本机：curl http://127.0.0.1:11434，应返回 Ollama is running。
远程：curl http://服务器IP:11434，若不通，检查防火墙/云安全组是否放行 11434/tcp。

三模型拉取与运行

四 GPU 与显存优化

无 NVIDIA/AMD 驱动时，Ollama 会提示并自动以 CPU-only 模式运行；如需 GPU 加速，请安装对应驱动与工具链，确保 nvidia-smi 正常。
显存不足的对策：
选用更小的模型（如 8B 而非 70B）。
关闭占用显存的其他进程，或降低并发/批量参数（在自建推理脚本中可调 max_batch_size、使用张量并行等）。
环境自检：执行 nvidia-smi 确认驱动与显存状态；若频繁 OOM，优先换小模型或改用 CPU 模式。

五 Web 界面与 API 集成

Open WebUI 快速部署（Docker）：
服务端：docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://服务器IP:11434 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
客户端：docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
访问 http://localhost:3000 或 http://服务器IP:3000，在设置中确认 Ollama 基础 URL 为 http://host.docker.internal:11434（客户端）或 http://服务器IP:11434（服务端）。
API 调用示例：
文本补全：curl http://127.0.0.1:11434/api/generate -d '{"model":"llama3","prompt":"Hello, Llama 3!","stream":false}'
对话补全：curl http://127.0.0.1:11434/api/chat -d '{ "model":"llama3", "messages":[{"role":"user","content":"你好"}] }'。
常见问题速排：
端口占用：netstat -tulpn | grep 11434 查进程并释放端口。
下载缓慢或中断：重试 ollama run llama3；必要时更换网络或在稳定时段执行。
容器连不通宿主机：确认 OLLAMA_BASE_URL 与 OLLAMA_HOST 配置正确，且防火墙放行 11434。