Linux系统如何支持Llama 3运行 - AI技术

Linux系统支持 Llama 3 运行的完整方案
一环境准备与硬件建议

操作系统：建议使用 Ubuntu 20.04/22.04 等 64 位发行版，内核与驱动支持较完善。
CPU 模式：至少 10 核以上 CPU + 16GB 内存 可运行 8B 参数模型（速度有限）。
GPU 加速：推荐 NVIDIA 显卡，显存建议 ≥8GB（8B）；如 24GB 显存可更从容地运行 8B 或进行多并发/更高上下文。
存储与网络：预留 20GB+ 磁盘空间；确保可稳定访问外网以下载模型。
说明：Llama 3 常见版本为 8B 与 70B，规模越大对显存与内存要求越高。

二快速部署 Ollama 并运行 Llama 3

安装 Ollama（Linux 一键脚本）：

curl -fsSL https://ollama.com/install.sh | sh

拉取并运行模型（首次会自动下载）：

ollama run llama3

验证服务与连通性（默认端口 11434）：

curl http://127.0.0.1:11434
# 若返回 "Ollama is running" 表示服务正常

常用命令：

ollama --version              # 查看版本
ollama ps                     # 查看已加载模型与资源占用
ollama pull llama3:70b         # 拉取指定版本（如 70B）

说明：上述命令适用于 CPU 与已配置 GPU 的环境；GPU 使用与加速由 Ollama 在后台自动选择（若可用）。

三作为服务运行与远程访问

配置服务监听地址（允许远程访问）：

编辑服务文件 /etc/systemd/system/ollama.service，在 [Service] 下添加或修改：

Environment="OLLAMA_HOST=0.0.0.0:11434"

重新加载并重启服务：

sudo systemctl daemon-reload
sudo systemctl restart ollama
sudo systemctl enable ollama    # 可选：开机自启

防火墙放行端口（如 firewalld）：

sudo firewall-cmd --add-port=11434/tcp --permanent
sudo firewall-cmd --reload

远程验证：

curl http://服务器IP:11434

说明：若仅本机访问，可保持默认 127.0.0.1；如需局域网/公网访问，务必配好防火墙与安全策略。

四部署 Open WebUI 可视化界面

Docker 启动（服务端或客户端均可）：
服务端（指定 Llama 服务地址）：

docker run -d -p 3000:8080 \
-e OLLAMA_BASE_URL=http://服务器IP:11434 \
-v open-webui:/app/backend/data \
--name open-webui --restart always \
ghcr.io/open-webui/open-webui:main

客户端（本机 Docker，访问宿主机 Ollama）：

docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui --restart always \
ghcr.io/open-webui/open-webui:main

访问与使用：浏览器打开 http://localhost:3000，在界面中选择 Llama 3 即可对话与文件上传。

五常见问题与优化

端口冲突（默认 11434 被占用）：

sudo lsof -i :11434
kill 
ollama serve

模型下载慢/失败：检查网络与代理；必要时将模型缓存目录迁移到大磁盘（设置环境变量 OLLAMA_MODELS 指向新路径）。
显存不足：优先选择 llama3:8b 或更低参数量模型；关闭占用显存的其他进程；必要时采用量化或更小的上下文长度。
日志排查：

journalctl -u ollama -n 50 --no-pager

说明：Ollama 默认提供 /api/generate 等接口，可用于程序化调用与集成。