安装Llama 3需要哪些Linux步骤 - AI技术

Linux 安装 Llama 3 的简明步骤
一准备与环境

建议使用 Ubuntu 20.04+ 等 64 位发行版，具备 NVIDIA GPU（显存≥8GB） 体验更佳；为模型与缓存预留 20GB+ 磁盘空间。
如需 GPU 加速，先正确安装 NVIDIA 驱动 与 Docker；后续使用 Docker 运行 Ollama 时需启用 nvidia-container-toolkit。
若不使用 GPU，也可在 CPU 模式下运行（速度较慢）。

二方式一使用 Ollama 快速安装与运行

一键安装 Ollama（Linux）：

curl -fsSL https://ollama.com/install.sh | sh

启动服务（任选其一）：
直接运行：ollama serve
或作为系统服务：创建 /etc/systemd/system/ollama.service，示例：

[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin"
# 可选：远程访问
Environment="OLLAMA_HOST=0.0.0.0"
# 可选：跨域
Environment="OLLAMA_ORIGINS=*"
# 可选：自定义模型存放路径
Environment="OLLAMA_MODELS=/home/ollama/.ollama/models"
[Install]
WantedBy=default.target

然后执行：

sudo systemctl daemon-reload
sudo systemctl enable --now ollama

拉取并运行 Llama 3（默认 8B）：

ollama run llama3
# 仅下载
ollama pull llama3
# 查看已安装模型
ollama list
# 删除模型
ollama rm llama3

常用管理命令：ollama serve|create|show|run|pull|push|list|cp|rm|help。

三方式二使用 Docker 运行（含 GPU 与 Web UI）

CPU 模式：

docker run -d \
-v ollama:/root/.ollama \
-p 11434:11434 \
--name ollama \
ollama/ollama

GPU 模式（需先安装 nvidia-container-toolkit，见上文准备）：

docker run -d \
--gpus=all \
-v ollama:/root/.ollama \
-p 11434:11434 \
--name ollama \
ollama/ollama

在容器内使用模型：

docker exec -it ollama ollama run llama3

可选 Web 界面（Ollama Web UI）：

docker run -d \
-p 8080:8080 \
--add-host=host.docker.internal:host-gateway \
--name ollama-webui \
--restart always \
ghcr.io/ollama-webui/ollama-webui:main

浏览器访问 http://localhost:8080。
四验证与常用 API 调用

服务连通性：

curl http://127.0.0.1:11434

文本生成（非流式）：

curl http://127.0.0.1:11434/api/generate -d '{
"model": "llama3",
"prompt": "Describe the scene of sunny weather after raining",
"stream": false
}'

对话接口（非流式）：

curl http://127.0.0.1:11434/api/chat -d '{
"model": "llama3",
"messages": [
{"role": "system", "content": "你是一名资深翻译家，请将接下来的内容翻译成中文"},
{"role": "user", "content": "What a lovely scenario!\n\nAs you step out into the bright, open air."}
],
"stream": false
}'

提示：若需远程访问，确保服务启动参数或 systemd 环境包含 OLLAMA_HOST=0.0.0.0。

五常见问题与优化

显存不足：优先选择 llama3:8B 或 llama3:instruct，关闭占用显存的其他程序；必要时改用 CPU 模式或更小的模型。
下载失败：重试 ollama run llama3；网络不稳可更换网络或在稳定时段重试。
端口冲突：修改 -p 参数（如将 11434 改为其他端口）。
模型存放路径：通过环境变量 OLLAMA_MODELS 指定到大容量磁盘分区，避免系统盘空间不足。
中文体验：Llama 3 的中文能力相对英文略弱，可在提问中明确“用中文回答”以优化输出。