如何在Linux上安装Llama 3模型 - AI技术

在 Linux 上安装并运行 Llama 3 的简明步骤
一准备与环境要求

硬件建议
CPU 模式：至少 10 核 CPU + 16GB 内存（可运行 8B 参数模型，速度较慢）。
GPU 模式：建议 NVIDIA 显卡，显存 ≥16GB 可流畅运行 8B；70B 建议使用 A100 80GB 等高端 GPU。
软件环境
操作系统：Ubuntu 20.04/22.04 或其他主流 Linux。
工具：Ollama（推荐），或 Docker + Transformers（原生 PyTorch 路线）。

二方式一 Ollama 一键安装与运行（推荐）

安装 Ollama
一键脚本（自动安装二进制与服务）：

curl -fsSL https://ollama.com/install.sh | sh

手动安装（可选，便于自定义路径，例如 /opt/ollama）：

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama.tgz
sudo mkdir -p /opt/ollama
sudo tar -xzf ollama.tgz -C /opt/ollama

配置为系统服务（可选，便于开机自启与远程访问）
创建服务文件 /etc/systemd/system/ollama.service：

[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/opt/ollama/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin"
# 允许远程访问（生产环境请按需限制来源）
Environment="OLLAMA_HOST=0.0.0.0"
# 跨域（如通过浏览器前端调用）
Environment="OLLAMA_ORIGINS=*"
# 自定义模型存放路径（可选）
Environment="OLLAMA_MODELS=/opt/ollama/models"
[Install]
WantedBy=multi-user.target

启用服务：

sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama

拉取并运行 Llama 3
命令行交互（首次会自动下载，默认 8B）：

ollama run llama3

指定参数规模（如 70B）：

ollama run llama3:70b

仅拉取不运行：

ollama pull llama3:8b
ollama list

常用命令
服务管理：ollama serve
模型管理：ollama pull | run | list | rm | show | create | push | cp | help。

三方式二 Docker 与 Open WebUI 可视化

启动 Open WebUI（推荐）

docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--restart always \
ghcr.io/open-webui/open-webui:main

访问：http://localhost:3000，在界面中选择 Llama 3 即可对话与上传文件。
绑定自定义模型目录（如将宿主机 /opt/ollama/models 挂载到容器内）

docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v /opt/ollama/models:/app/backend/models \
-v open-webui:/app/backend/data \
--restart always \
ghcr.io/open-webui/open-webui:main

端口冲突时修改左侧宿主机端口（例如 -p 5000:8080）。

四验证与 API 调用

本地 CLI 验证

ollama run llama3 "用一句话介绍 Llama 3"

REST API 生成文本（默认监听 11434 端口）

curl http://localhost:11434/api/generate -d '{
"model": "llama3:8b",
"prompt": "用一句话介绍 Llama 3",
"stream": false
}'

聊天接口示例

curl http://localhost:11434/api/chat -d '{
"model": "llama3:8b",
"messages": [
{"role": "system", "content": "你是一名专业翻译家。"},
{"role": "user", "content": "Hello, world!"}
],
"stream": false
}'

远程访问：确保服务配置了 OLLAMA_HOST=0.0.0.0，并在防火墙放行 11434 端口。

五常见问题与优化

显存不足
优先选择 llama3:8b 或 llama3:70b 的量化版本（如 4-bit/8-bit）；或在 Transformers 路线使用 bitsandbytes 量化加载。
模型下载慢或失败
检查网络与代理；必要时手动下载模型至 OLLAMA_MODELS 指定目录后再运行。
端口冲突
修改 Open WebUI 映射端口（如 -p 5000:8080），或关闭占用端口的进程。
路径与权限
自定义模型目录时，确保目录存在且 ollama 用户有读写权限（如 /opt/ollama/models）。
远程访问安全
生产环境不要使用 OLLAMA_ORIGINS=*，应仅允许可信域名；配合反向代理与鉴权。