Linux环境下Llama 3安装方法 - AI技术

Linux环境下 Llama 3 安装与运行指南
一环境准备与硬件建议

操作系统与工具：建议使用 Ubuntu/Debian 等主流发行版，已安装 curl 与 systemd。
硬件建议：
CPU 模式：至少 10 核 CPU + 16GB 内存（可运行 8B 参数模型）。
GPU 模式：建议 NVIDIA 显卡，驱动与 CUDA 12.2+ 兼容；显存建议 ≥8GB（8B），更大模型需更高显存。
磁盘空间：为模型与缓存预留 20GB+。
网络：可访问 Ollama 官方站点 与模型仓库，必要时准备代理。

二方式一 Ollama 一键安装与系统服务

一键安装 Ollama（Linux）：

curl -fsSL https://ollama.com/install.sh | sh

安装完成后执行 ollama -v 验证版本。

自定义安装路径并以 systemd 管理（可选，便于指定模型目录与远程访问）：

1) 下载并解压到自定义目录（示例：/opt/ollama）

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama.tgz
sudo mkdir -p /opt/ollama
sudo tar -xzf ollama.tgz -C /opt/ollama

2) 创建服务文件 /etc/systemd/system/ollama.service

[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/opt/ollama/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin"
# 可选：自定义模型目录
Environment="OLLAMA_MODELS=/opt/ollama/models"
# 可选：允许远程访问
# Environment="OLLAMA_HOST=0.0.0.0"
# 可选：跨域
# Environment="OLLAMA_ORIGINS=*"
[Install]
WantedBy=multi-user.target

3) 启动与开机自启

sudo systemctl daemon-reload
sudo systemctl enable --now ollama

4) 验证服务

systemctl status ollama
ollama -v

说明：若未创建专用用户，可将 User/Group 调整为当前用户（如 ubuntu），并确保对相关目录有读写权限。
三方式二 Docker 部署 Ollama 与 Open WebUI

CPU 模式运行 Ollama（数据持久化到 /opt/ai/ollama）

docker run -d \
-v /opt/ai/ollama:/root/.ollama \
-p 11434:11434 \
--name ollama \
ollama/ollama

GPU 模式运行 Ollama（需提前安装 nvidia-container-toolkit）

docker run --gpus all -d \
-v /opt/ai/ollama:/root/.ollama \
-p 11434:11434 \
--name ollama \
ollama/ollama

启动 Open WebUI（浏览器访问 http://localhost:3000）

docker run -d \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main

在容器中拉取并运行 Llama 3

docker exec -it ollama ollama run llama3

提示：如需将宿主机的 /opt/ollama/models 挂载到 WebUI，可在 WebUI 启动命令中添加 -v /opt/ollama/models:/app/backend/models ...。

四下载运行 Llama 3 与常用命令

运行默认 8B 模型（首次会自动下载）

ollama run llama3

指定 70B 模型

ollama run llama3:70b

仅下载模型

ollama pull llama3

查看本地模型

ollama list

删除模型

ollama rm llama3

常用子命令

ollama serve    # 启动服务
ollama create   # 从模型文件创建模型
ollama show     # 显示模型信息
ollama pull     # 拉取模型
ollama push     # 推送模型
ollama cp       # 复制模型
ollama rm       # 删除模型
ollama help     # 帮助

首次下载时间与体积：取决于网络，常见 4–8GB 量级。

五常见问题与优化

模型下载慢或失败：检查网络与代理；必要时将模型文件手动放入 OLLAMA_MODELS 指定目录后再运行。
显存不足：选择更小参数模型（如仅用 8B），或关闭占用显存的其他进程；GPU 模式请确保 CUDA 12.2+ 与驱动匹配。
端口冲突：修改映射端口（如将 3000:8080 改为 5000:8080）。
远程访问：在 systemd 服务中设置 Environment="OLLAMA_HOST=0.0.0.0" 后重启服务；注意开放防火墙端口 11434。
自定义模型目录：设置 Environment="OLLAMA_MODELS=/your/path" 并确保目录权限正确。