如何利用Linux安装Llama 3框架 - AI技术

在 Linux 上安装并使用 Llama 3 的推荐方式是借助 Ollama 一键部署，并可选择 Open WebUI 提供可视化界面。以下给出从零到可用的完整步骤与常见排错要点。

一安装前准备

硬件建议
有 NVIDIA GPU（计算能力 5.0+） 可显著加速；仅 CPU 也可运行，但性能受限。
内存建议：Llama 3 8B ≥ 16GB 内存，Llama 3 70B ≥ 64GB 内存；显存建议 ≥ 8GB 起步更稳。
软件与网络
操作系统：Linux（推荐 Ubuntu/Debian/CentOS 等主流发行版）。
网络：可访问 Ollama 模型库 以下载模型；如需离线，见文末离线方案。

二安装 Ollama 并拉起 Llama 3

一键安装 Ollama（Linux）
执行：curl -fsSL https://ollama.com/install.sh | sh
验证：ollama --version
拉取并运行 Llama 3
常用命令：
拉取：ollama pull llama3:8b
运行：ollama run llama3:8b
查看本地模型：ollama list
说明：上述命令会自动下载模型并进入交互界面；首次运行会进行 SHA256 校验。如仅需命令行交互，此步已完成。

三作为系统服务运行并开放远程访问

创建 systemd 服务
新建文件：sudo vim /etc/systemd/system/ollama.service
写入示例：

[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin"
# 允许远程访问
Environment="OLLAMA_HOST=0.0.0.0:11434"
# 可选：跨域
Environment="OLLAMA_ORIGINS=*"
# 可选：自定义模型存放路径（示例）
Environment="OLLAMA_MODELS=/home/ollama/.ollama/models"
[Install]
WantedBy=default.target

启动与开机自启
sudo systemctl daemon-reload
sudo systemctl enable --now ollama
验证端口与服务
本地：curl http://127.0.0.1:11434（应返回 “Ollama is running”）
远程：curl http://服务器IP:11434
端口占用排查：sudo lsof -i :11434 或 ss -ltnp | grep 11434。

四部署 Open WebUI 可视化界面（可选）

Docker 快速启动（支持 GPU）
命令：

docker run -d \
-p 3000:8080 \
--gpus all \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main

无 GPU 时可去掉 --gpus all。
访问与配置
浏览器打开：http://localhost:3000
首次注册登录后，在 Settings → Models 中选择或拉取 Llama 3 8B 即可使用。

五 GPU 加速与 Docker 部署方案（可选）

NVIDIA GPU
安装 nvidia-container-toolkit，并配置 Docker 运行时：

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

启动 Ollama 容器（GPU）：

docker run -d \
--gpus=all \
-v ollama:/root/.ollama \
-p 11434:11434 \
--name ollama \
ollama/ollama

AMD GPU（ROCm）

docker run -d \
--device /dev/kfd --device /dev/dri \
-v ollama:/root/.ollama \
-p 11434:11434 \
--name ollama \
ollama/ollama:rocm

说明：主机已安装好驱动后再运行上述命令；容器内的 11434 端口需与主机的 Ollama 服务端口打通。

六常见问题与离线部署

常见问题
端口被占用：用 lsof -i :11434 或 ss -ltnp | grep 11434 查进程并释放，或更改 OLLAMA_HOST 端口。
远程访问不通：确认 OLLAMA_HOST=0.0.0.0:11434 已设置，且云服务器安全组/防火墙放行 11434 端口。
模型下载慢/失败：检查网络与磁盘空间，重试 ollama pull llama3:8b；必要时更换镜像源或离线导入。
显存不足：优先选择 llama3:8b，关闭占用显存的其他进程，或使用 CPU 模式（性能受限）。
离线部署思路
在线环境：安装 Ollama 与 Docker，拉取并运行 Llama 3 与 Open WebUI，将 Docker 镜像保存为 tar 包（docker save）。
离线环境：导入镜像（docker load），按相同方式启动容器；Ollama 模型需在有网环境预先拉取到本地缓存目录后再拷贝至离线机器相同路径。