如何用Linux安装Llama 3模型

AI技术
小华
2026-01-12

Linux安装与运行 Llama 3 的简明指南
一 环境准备与硬件建议

  • 操作系统:推荐 Ubuntu 20.04/22.04 或其他主流发行版,已安装最新 NVIDIA 驱动CUDA(GPU 场景)。
  • 硬件建议:
  • CPU 模式:≥10 核 CPU、≥16GB 内存(可运行 8B 参数模型,速度较慢)。
  • GPU 模式:建议 NVIDIA 显卡,支持 CUDA 12.2+;如 A10 等数据中心卡。
  • 显存参考:7B ≈ 16GB 显存70B 推荐 A100 80GB / H100 等高端卡。
  • 工具链:安装 Docker(如需 Open WebUI 可视化)。

二 方式一 Ollama 一键安装与运行(推荐)

  • 安装 Ollama(Linux 一键脚本):
curl -fsSL https://ollama.com/install.sh | sh
  • 启动服务(两种方式,二选一):
  • 直接启动:ollama serve
  • 作为系统服务:创建文件 /etc/systemd/system/ollama.service
[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin"
# 可选:远程访问
Environment="OLLAMA_HOST=0.0.0.0"
# 可选:跨域
Environment="OLLAMA_ORIGINS=*"
# 可选:自定义模型存放路径
Environment="OLLAMA_MODELS=/opt/ollama/models"
[Install]
WantedBy=multi-user.target

然后执行:

sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama
  • 拉取并运行 Llama 3:
# 默认 8B
ollama run llama3
# 指定 70B
ollama run llama3:70b
  • 验证与 API:
ollama --version
curl http://localhost:11434/api/generate -d '{"model":"llama3","prompt":"用一句话介绍Llama 3","stream":false}'
  • 常用命令:ollama pull|list|rm|show|create(与 Docker 风格类似)。

三 方式二 手动安装 Ollama 并自定义路径

  • 下载与解压:
curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama.tgz
sudo mkdir -p /opt/ollama
sudo tar -xzf ollama.tgz -C /opt/ollama
mkdir -p /opt/ollama/models
  • 配置 systemd 服务(/etc/systemd/system/ollama.service):
[Service]
ExecStart=/opt/ollama/bin/ollama serve
Environment="OLLAMA_MODELS=/opt/ollama/models"
[Install]
WantedBy=multi-user.target
  • 启动与验证:
sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama
ollama run llama3
  • 说明:自定义 OLLAMA_MODELS 可将模型与二进制分离,便于多盘或权限管理。

四 可视化界面 Open WebUI(可选)

  • Docker 启动(推荐):
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui --restart always \
ghcr.io/open-webui/open-webui:main
  • 访问:浏览器打开 http://localhost:3000,注册后选择 Llama 3 即可对话。
  • 模型路径绑定(若自定义 OLLAMA_MODELS):
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v /opt/ollama/models:/app/backend/models \
-v open-webui:/app/backend/data \
--name open-webui --restart always \
ghcr.io/open-webui/open-webui:main
  • 常见问题:端口冲突可改为 -p 5000:8080;内网访问可用 --network=host

五 常见问题与优化

  • 显存不足:优先选择 llama3:8Bllama3:70B 的量化版本(如 4-bit),或在 GPU 云使用 A100 80GB / H100 等高端卡。
  • 模型下载慢/失败:检查网络与代理;也可将模型文件预下载至 OLLAMA_MODELS 指定目录后再运行。
  • 远程访问:在 systemd 服务中设置 Environment="OLLAMA_HOST=0.0.0.0",并确保防火墙放行 11434 端口。
  • 路径与权限:自定义 OLLAMA_MODELS 后,确保目录存在且 ollama 用户可写。
  • 性能调优:GPU 场景建议 量化(4-bit/8-bit)张量并行 与合适的 batch 策略以提升吞吐。
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序