如何在Linux上安装Llama 3模型

AI技术
小华
2026-01-05

在 Linux 上安装并运行 Llama 3 的简明步骤
一 准备与环境要求

  • 硬件建议
  • CPU 模式:至少 10 核 CPU + 16GB 内存(可运行 8B 参数模型,速度较慢)。
  • GPU 模式:建议 NVIDIA 显卡,显存 ≥16GB 可流畅运行 8B70B 建议使用 A100 80GB 等高端 GPU。
  • 软件环境
  • 操作系统:Ubuntu 20.04/22.04 或其他主流 Linux
  • 工具:Ollama(推荐),或 Docker + Transformers(原生 PyTorch 路线)。

二 方式一 Ollama 一键安装与运行(推荐)

  • 安装 Ollama
  • 一键脚本(自动安装二进制与服务):
curl -fsSL https://ollama.com/install.sh | sh
  • 手动安装(可选,便于自定义路径,例如 /opt/ollama):
curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama.tgz
sudo mkdir -p /opt/ollama
sudo tar -xzf ollama.tgz -C /opt/ollama
  • 配置为系统服务(可选,便于开机自启与远程访问)
  • 创建服务文件 /etc/systemd/system/ollama.service
[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/opt/ollama/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin"
# 允许远程访问(生产环境请按需限制来源)
Environment="OLLAMA_HOST=0.0.0.0"
# 跨域(如通过浏览器前端调用)
Environment="OLLAMA_ORIGINS=*"
# 自定义模型存放路径(可选)
Environment="OLLAMA_MODELS=/opt/ollama/models"
[Install]
WantedBy=multi-user.target
  • 启用服务:
sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama
  • 拉取并运行 Llama 3
  • 命令行交互(首次会自动下载,默认 8B):
ollama run llama3
  • 指定参数规模(如 70B):
ollama run llama3:70b
  • 仅拉取不运行:
ollama pull llama3:8b
ollama list
  • 常用命令
  • 服务管理:ollama serve
  • 模型管理:ollama pull | run | list | rm | show | create | push | cp | help

三 方式二 Docker 与 Open WebUI 可视化

  • 启动 Open WebUI(推荐)
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--restart always \
ghcr.io/open-webui/open-webui:main
  • 访问:http://localhost:3000,在界面中选择 Llama 3 即可对话与上传文件。
  • 绑定自定义模型目录(如将宿主机 /opt/ollama/models 挂载到容器内)
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v /opt/ollama/models:/app/backend/models \
-v open-webui:/app/backend/data \
--restart always \
ghcr.io/open-webui/open-webui:main
  • 端口冲突时修改左侧宿主机端口(例如 -p 5000:8080)。

四 验证与 API 调用

  • 本地 CLI 验证
ollama run llama3 "用一句话介绍 Llama 3"
  • REST API 生成文本(默认监听 11434 端口)
curl http://localhost:11434/api/generate -d '{
"model": "llama3:8b",
"prompt": "用一句话介绍 Llama 3",
"stream": false
}'
  • 聊天接口示例
curl http://localhost:11434/api/chat -d '{
"model": "llama3:8b",
"messages": [
{"role": "system", "content": "你是一名专业翻译家。"},
{"role": "user", "content": "Hello, world!"}
],
"stream": false
}'
  • 远程访问:确保服务配置了 OLLAMA_HOST=0.0.0.0,并在防火墙放行 11434 端口。

五 常见问题与优化

  • 显存不足
  • 优先选择 llama3:8bllama3:70b 的量化版本(如 4-bit/8-bit);或在 Transformers 路线使用 bitsandbytes 量化加载。
  • 模型下载慢或失败
  • 检查网络与代理;必要时手动下载模型至 OLLAMA_MODELS 指定目录后再运行。
  • 端口冲突
  • 修改 Open WebUI 映射端口(如 -p 5000:8080),或关闭占用端口的进程。
  • 路径与权限
  • 自定义模型目录时,确保目录存在且 ollama 用户有读写权限(如 /opt/ollama/models)。
  • 远程访问安全
  • 生产环境不要使用 OLLAMA_ORIGINS=*,应仅允许可信域名;配合反向代理与鉴权。
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序