Linux环境下如何运行Llama3 - AI技术

Linux环境运行 Llama 3 实操指南
一环境准备与安装

硬件建议：CPU 模式建议至少10 核 + 16GB 内存；有 NVIDIA GPU 时建议显存≥8GB，更推荐≥16GB以流畅运行 8B 或 70B 模型。
安装 Ollama（Linux 一键脚本）：
执行：curl -fsSL https://ollama.com/install.sh | sh
安装完成后会自动创建 systemd 服务，API 默认监听 127.0.0.1:11434。
可选 GPU（Docker）：需提前安装 NVIDIA 驱动 与 NVIDIA Container Toolkit，随后可用带 --gpus=all 的容器运行 Ollama。

二快速运行 Llama 3

三远程访问与 API 调用

允许远程访问（修改服务环境变量）：
编辑：sudo systemctl edit ollama 或编辑文件 /etc/systemd/system/ollama.service
在 [Service] 下添加：
Environment="OLLAMA_HOST=0.0.0.0:11434"（监听所有地址）
Environment="OLLAMA_ORIGINS=*"（允许跨域，按需开启）
使配置生效：sudo systemctl daemon-reload && sudo systemctl restart ollama
验证：curl http://服务器IP:11434，返回 “Ollama is running” 即正常。
API 示例（生成接口）：
curl http://localhost:11434/api/generate -d '{ "model":"llama3", "prompt":"请用中文介绍Llama 3", "stream":false }'
安全提示：开放到公网前请配置防火墙/反向代理/鉴权，避免未授权访问。

四使用 Docker 运行

CPU 模式：
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
GPU 模式（需 nvidia-container-toolkit）：
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
进入容器运行模型：
docker exec -it ollama ollama run llama3

五部署 Open WebUI 可视化界面

Docker 启动（默认端口 3000）：
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
访问：浏览器打开 http://服务器IP:3000，注册登录后在设置中选择 Llama 3 即可使用。

六常见问题与优化

端口占用：检查 netstat -tulpn | grep 11434 或 lsof -i :11434，必要时结束占用进程后重启服务。
显存不足：改用更小模型（如 llama3:8b）、关闭占用显存程序，或使用 CPU 模式。
模型下载慢：可更换镜像源或在网络条件更好的环境重试；必要时配置代理。
自定义模型存放路径：在 systemd 服务中设置 Environment="OLLAMA_MODELS=/your/path"，并确保目录权限与磁盘空间充足。