Linux系统如何配置Llama 3 - AI技术

Linux 配置 Llama 3 实操指南
一环境准备与硬件建议

操作系统与工具：建议使用 Ubuntu/Debian/CentOS 等主流发行版，安装 Docker（如需 Web 界面），并准备 Git、curl。
硬件建议：
CPU 模式：至少 10 核 CPU + 16GB 内存（可运行 8B 参数模型）。
GPU 模式：推荐 NVIDIA 显卡，显存 ≥ 8GB；如需运行 70B 等大模型，建议 ≥ 48GB 显存（如 A10 24GB 实测可运行 70B，但速度受限）。
磁盘空间：至少预留 20GB（8B 模型首次下载约 4–8GB）。
网络：确保可访问 Ollama 模型库；国内网络可考虑设置代理或离线导入模型。

二方案一 Ollama 快速部署 Llama 3（推荐）

安装 Ollama（Linux 一键脚本）：

curl -fsSL https://ollama.com/install.sh | sh
ollama -v  # 验证安装

拉取并运行模型（首次会自动下载）：

ollama run llama3          # 8B
ollama run llama3:70b       # 70B（显存不足时建议改用 8B）

作为服务运行与开机自启（可选，便于远程调用）：

sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start  ollama

常用命令（与 Docker 风格类似）：

ollama pull llama3
ollama list
ollama rm llama3

验证服务与端口：

curl http://127.0.0.1:11434  # 返回 "Ollama is running"
ss -tlnp | grep 11434

远程访问与跨域（修改服务环境变量）：

sudo systemctl edit ollama  # 在打开的编辑器中添加：
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_ORIGINS=*"
# 保存后
sudo systemctl daemon-reload
sudo systemctl restart ollama

访问测试：http://服务器IP:11434 应显示 Ollama is running。
三方案二手动安装与自定义路径（适合离线或受限环境）

下载并解压到自定义目录（示例：/opt/ollama）：

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama.tgz
sudo mkdir -p /opt/ollama
sudo tar -xzf ollama.tgz -C /opt/ollama
sudo mkdir -p /opt/ollama/models

创建 systemd 服务并设置模型目录：

sudo tee /etc/systemd/system/ollama.service >/dev/null <<'EOF'
[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/opt/ollama/bin/ollama serve
Environment="OLLAMA_MODELS=/opt/ollama/models"
Restart=always
RestartSec=3
[Install]
WantedBy=multi-user.target
EOF
sudo systemctl daemon-reload
sudo systemctl enable --now ollama

运行模型：

/opt/ollama/bin/ollama run llama3

如需远程访问，按“方案一”在服务中追加 OLLAMA_HOST=0.0.0.0:11434 并重启服务。

四部署 Open WebUI 可视化界面（可选）

Docker 启动（默认端口 3000）：

docker run -d \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main

访问：http://服务器IP:3000，在界面中选择 Llama 3 即可对话、上传文件等。
与手动安装的 Ollama 共存时，可将模型目录挂载到容器内（示例）：

docker run -d \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v /opt/ollama/models:/app/backend/models \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main

若 Ollama 未使用 Docker，建议 Open WebUI 使用 host 网络 以避免容器网络隔离问题：

docker run -d \
--network=host \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main

防火墙放行（示例 CentOS/Fedora）：

sudo firewall-cmd --permanent --add-port=3000/tcp
sudo firewall-cmd --reload

局域网访问：确保云服务器安全组/本机防火墙放行 3000 端口。

五常见问题与优化

端口占用（默认 11434）：

ss -tlnp | grep 11434
sudo systemctl restart ollama

模型下载慢/失败：检查网络与代理；必要时先在外网环境 ollama pull llama3 再拷贝到离线机器的 OLLAMA_MODELS 目录。
显存不足：优先选择 llama3（8B）；70B 建议 ≥ 48GB 显存，否则会退化为极慢的 CPU 推理或无法加载。
远程访问失败：确认服务配置了 OLLAMA_HOST=0.0.0.0:11434 并已重启；云主机需放行 11434 端口与安全组规则。
自定义模型路径：设置环境变量 OLLAMA_MODELS=/your/models/path 后重启服务，Ollama 将在此路径读写模型。