在Linux系统中如何运行Llama 3

AI技术
小华
2026-01-05

在 Linux 上运行 Llama 3 的实用步骤
一 环境准备与硬件建议

  • 操作系统:建议使用 Ubuntu/Debian/CentOS 等主流发行版,已安装 Docker(如需容器化)。
  • 硬件建议:
  • CPU 模式:至少 10 核 CPU + 16GB 内存(可运行 8B 参数模型)。
  • GPU 模式:推荐 NVIDIA 显卡,驱动与 CUDA 12.2+ 环境;显存越大体验越好(如 A10/A100 等)。
  • 磁盘空间:为模型与缓存预留 20GB+(视模型与版本而定)。

二 安装与启动 Ollama

  • 方式一 本机安装脚本(推荐)
  • 执行安装脚本并启动服务:
curl -fsSL https://ollama.com/install.sh | sh
ollama serve
  • 验证安装:
ollama --version
  • 方式二 手动安装与 systemd 托管
  • 下载并解压到自定义目录(示例:/opt/ollama):
curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama.tgz
sudo mkdir -p /opt/ollama
sudo tar -xzf ollama.tgz -C /opt/ollama
  • 创建服务文件 /etc/systemd/system/ollama.service
[Service]
ExecStart=/opt/ollama/bin/ollama serve
Environment="OLLAMA_MODELS=/opt/ollama/models"
[Install]
WantedBy=multi-user.target
  • 启动与开机自启:
sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama
  • 方式三 Docker 运行(CPU 或 GPU)
  • CPU:
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
  • GPU(需已安装 NVIDIA Container Toolkit):
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
  • 进入容器运行模型:
docker exec -it ollama ollama run llama3

以上步骤完成后,Ollama 默认会在 http://127.0.0.1:11434 提供 API 服务。
三 运行 Llama 3 模型

  • 拉取并运行默认 8B 模型:
ollama run llama3
  • 指定参数版本(如 70B):
ollama run llama3:70b
  • 仅下载不运行:
ollama pull llama3
  • 常用管理命令:
ollama list        # 查看已安装模型
ollama rm llama3    # 删除模型

首次运行会自动下载模型,网络状况不同耗时不同。
四 远程访问与 API 调用

  • 允许远程访问
  • 修改服务环境变量(示例为 systemd 服务):
sudo systemctl edit ollama
# 在打开的编辑器中添加:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
  • 重载并重启:
sudo systemctl daemon-reload
sudo systemctl restart ollama
  • 验证服务可达:
curl http://服务器IP:11434
# 或
curl http://服务器IP:11434/api/generate -d '{ "model":"llama3", "prompt":"用中文介绍你自己", "stream":false }'
  • 常用 API 示例
  • 非流式生成:
curl http://localhost:11434/api/generate -d '{ "model":"llama3", "prompt":"Translate to Chinese: Meta Llama 3", "stream":false }'
  • 对话式调用:
curl http://localhost:11434/api/chat -d '{ "model":"llama3", "messages":[ {"role":"system","content":"你是一名翻译家。"},{"role":"user","content":"Hello, world!"} ], "stream":false }'

如需从外部访问,请确保安全组/防火墙已放行 11434 端口。
五 可视化界面 Open WebUI(可选)

  • Docker 启动(本机或服务器均可):
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data --name open-webui --restart always \
ghcr.io/open-webui/open-webui:main
  • 访问地址:http://localhost:3000(服务器请用服务器 IP)。
  • 如 Ollama 在宿主机而非容器内,需确保容器可访问宿主机端口(使用 --add-host=host.docker.internal:host-gateway)。
  • 与 Ollama 分离的模型路径(可选)
docker run -d -p 3000:8080 \
-v /opt/ollama/models:/app/backend/models \
-v open-webui:/app/backend/data --name open-webui --restart always \
ghcr.io/open-webui/open-webui:main

Open WebUI 提供类 ChatGPT 的网页界面,支持多模型、文件上传、对话管理等。

亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序