安装Llama 3到Linux服务器的方法

AI技术
小华
2026-01-05

在 Linux 服务器上安装与运行 Llama 3 的实用步骤
一 环境准备与安装 Ollama

  • 准备一台可联网的 Linux 服务器(有 NVIDIA GPU 可显著提升推理速度,CPU 也可运行但较慢)。
  • 一键安装 Ollama(会自动创建用户与 systemd 服务):

curl -fsSL https://ollama.com/install.sh | sh

  • 安装完成后可直接验证:

ollama --version

  • 如需手动离线安装,可下载安装脚本并修改其中的下载地址为直链(示例为 amd64):

https://ollama.com/download/ollama-linux-amd64,拷入服务器后放到 /usr/bin/ollama 并 chmod +x。以上步骤适用于 Llama 3 / 3.1 系列模型。
二 拉取并运行 Llama 3

  • 直接运行会自动拉取并进入交互:

ollama run llama3

  • 指定版本/规格(示例):

ollama run llama3.1 # 默认 8B
ollama run llama3:70b # 70B 需更高内存/显存

  • 仅拉取不运行:

ollama pull llama3

  • 常见可用标签还包括指令模型变体(如 llama3:instruct),可按需选择。

三 开放外网访问与 API 验证

  • 修改服务监听地址以允许远程访问:

编辑文件 /etc/systemd/system/ollama.service,在 [Service] 下添加或修改:
Environment="OLLAMA_HOST=0.0.0.0:11434"
然后执行:
systemctl daemon-reload && systemctl restart ollama

  • 防火墙放行(如 firewalld):

firewall-cmd --add-port=11434/tcp --permanent && firewall-cmd --reload

  • 本机或远程验证:

curl http://服务器IP:11434 # 应返回 “Ollama is running”
API 生成示例:
curl http://服务器IP:11434/api/generate -d '{
"model":"llama3",
"prompt":"请用中文介绍 Llama 3","stream":false
}'
四 可选 Web 界面 Open WebUI

  • 使用 Docker 启动(服务端部署,开放 3000 端口):

docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://服务器IP:11434 \
-v open-webui:/app/backend/data --name open-webui --restart always \
ghcr.io/open-webui/open-webui:main

五 常见问题与进阶

  • 端口占用:

lsof -i :11434 查看占用 PID,kill 后重启 ollama。

  • 离线环境:

先在外网机用 install.sh 下载 ollama-linux- 二进制,拷入服务器并赋权;模型可用 ollama pull 在有网环境拉取后离线导入,或准备 GGUF 模型通过 Modelfile 自建实例(示例见下文)。

  • 中文微调模型:

可使用社区微调版(如 Llama3.1-8B-Chinese-Chat),通过 Ollama 拉取或自建 Modelfile 导入 GGUF 后运行。

  • 进阶高性能推理:

若需更高并发/吞吐,可考虑 vLLM 等推理引擎替代 Ollama。
附:自建 Modelfile 示例(用于加载本地 GGUF)

  • 将 GGUF 放至如 /home/cec/models/Llama3-70B-Chinese-Chat-q4_0.gguf
  • Modelfile 内容:

FROM /home/cec/models/Llama3-70B-Chinese-Chat-q4_0.gguf
TEMPLATE """{{ if .System }}<|start_header_id|>system<|end_header_id|>{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>{{ .Response }}<|eot_id|>"""
SYSTEM ""
PARAMETER num_keep 24
PARAMETER stop <|start_header_id|>
PARAMETER stop <|end_header_id|>
PARAMETER stop <|eot_id|>
PARAMETER stop assistant
PARAMETER stop Assistant

  • 创建并运行:

ollama create llama3-zh-inst -f Modelfile
ollama run llama3-zh-inst

亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序