如何用Linux安装Llama 3模型 - AI技术

Linux安装与运行 Llama 3 的简明指南
一环境准备与硬件建议

操作系统：推荐 Ubuntu 20.04/22.04 或其他主流发行版，已安装最新 NVIDIA 驱动 与 CUDA（GPU 场景）。
硬件建议：
CPU 模式：≥10 核 CPU、≥16GB 内存（可运行 8B 参数模型，速度较慢）。
GPU 模式：建议 NVIDIA 显卡，支持 CUDA 12.2+；如 A10 等数据中心卡。
显存参考：7B ≈ 16GB 显存；70B 推荐 A100 80GB / H100 等高端卡。
工具链：安装 Docker（如需 Open WebUI 可视化）。

二方式一 Ollama 一键安装与运行（推荐）

安装 Ollama（Linux 一键脚本）：

curl -fsSL https://ollama.com/install.sh | sh

启动服务（两种方式，二选一）：
直接启动：ollama serve
作为系统服务：创建文件 /etc/systemd/system/ollama.service

[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin"
# 可选：远程访问
Environment="OLLAMA_HOST=0.0.0.0"
# 可选：跨域
Environment="OLLAMA_ORIGINS=*"
# 可选：自定义模型存放路径
Environment="OLLAMA_MODELS=/opt/ollama/models"
[Install]
WantedBy=multi-user.target

然后执行：

sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama

拉取并运行 Llama 3：

# 默认 8B
ollama run llama3
# 指定 70B
ollama run llama3:70b

验证与 API：

ollama --version
curl http://localhost:11434/api/generate -d '{"model":"llama3","prompt":"用一句话介绍Llama 3","stream":false}'

常用命令：ollama pull|list|rm|show|create（与 Docker 风格类似）。

三方式二手动安装 Ollama 并自定义路径

下载与解压：

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama.tgz
sudo mkdir -p /opt/ollama
sudo tar -xzf ollama.tgz -C /opt/ollama
mkdir -p /opt/ollama/models

配置 systemd 服务（/etc/systemd/system/ollama.service）：

[Service]
ExecStart=/opt/ollama/bin/ollama serve
Environment="OLLAMA_MODELS=/opt/ollama/models"
[Install]
WantedBy=multi-user.target

启动与验证：

sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama
ollama run llama3

说明：自定义 OLLAMA_MODELS 可将模型与二进制分离，便于多盘或权限管理。

四可视化界面 Open WebUI（可选）

Docker 启动（推荐）：

docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui --restart always \
ghcr.io/open-webui/open-webui:main

访问：浏览器打开 http://localhost:3000，注册后选择 Llama 3 即可对话。
模型路径绑定（若自定义 OLLAMA_MODELS）：

docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v /opt/ollama/models:/app/backend/models \
-v open-webui:/app/backend/data \
--name open-webui --restart always \
ghcr.io/open-webui/open-webui:main

常见问题：端口冲突可改为 -p 5000:8080；内网访问可用 --network=host。

五常见问题与优化

显存不足：优先选择 llama3:8B 或 llama3:70B 的量化版本（如 4-bit），或在 GPU 云使用 A100 80GB / H100 等高端卡。
模型下载慢/失败：检查网络与代理；也可将模型文件预下载至 OLLAMA_MODELS 指定目录后再运行。
远程访问：在 systemd 服务中设置 Environment="OLLAMA_HOST=0.0.0.0"，并确保防火墙放行 11434 端口。
路径与权限：自定义 OLLAMA_MODELS 后，确保目录存在且 ollama 用户可写。
性能调优：GPU 场景建议 量化（4-bit/8-bit）、张量并行 与合适的 batch 策略以提升吞吐。