安装Llama 3到Linux服务器的方法 - AI技术

在 Linux 服务器上安装与运行 Llama 3 的实用步骤
一环境准备与安装 Ollama

准备一台可联网的 Linux 服务器（有 NVIDIA GPU 可显著提升推理速度，CPU 也可运行但较慢）。
一键安装 Ollama（会自动创建用户与 systemd 服务）：

curl -fsSL https://ollama.com/install.sh | sh

安装完成后可直接验证：

ollama --version

如需手动离线安装，可下载安装脚本并修改其中的下载地址为直链（示例为 amd64）：

https://ollama.com/download/ollama-linux-amd64，拷入服务器后放到 /usr/bin/ollama 并 chmod +x。以上步骤适用于 Llama 3 / 3.1 系列模型。
二拉取并运行 Llama 3

直接运行会自动拉取并进入交互：

ollama run llama3

指定版本/规格（示例）：

ollama run llama3.1 # 默认 8B
ollama run llama3:70b # 70B 需更高内存/显存

仅拉取不运行：

ollama pull llama3

常见可用标签还包括指令模型变体（如 llama3:instruct），可按需选择。

三开放外网访问与 API 验证

修改服务监听地址以允许远程访问：

编辑文件 /etc/systemd/system/ollama.service，在 [Service] 下添加或修改：
Environment="OLLAMA_HOST=0.0.0.0:11434"
然后执行：
systemctl daemon-reload && systemctl restart ollama

防火墙放行（如 firewalld）：

firewall-cmd --add-port=11434/tcp --permanent && firewall-cmd --reload

本机或远程验证：

curl http://服务器IP:11434 # 应返回 “Ollama is running”
API 生成示例：
curl http://服务器IP:11434/api/generate -d '{
"model":"llama3",
"prompt":"请用中文介绍 Llama 3","stream":false
}'
四可选 Web 界面 Open WebUI

使用 Docker 启动（服务端部署，开放 3000 端口）：

docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://服务器IP:11434 \
-v open-webui:/app/backend/data --name open-webui --restart always \
ghcr.io/open-webui/open-webui:main

客户端浏览器访问 http://服务器IP:3000，在设置中确认 Ollama 基础 URL 为 http://服务器IP:11434 即可选择模型对话。

五常见问题与进阶

端口占用：

lsof -i :11434 查看占用 PID，kill 后重启 ollama。

离线环境：

先在外网机用 install.sh 下载 ollama-linux- 二进制，拷入服务器并赋权；模型可用 ollama pull 在有网环境拉取后离线导入，或准备 GGUF 模型通过 Modelfile 自建实例（示例见下文）。

中文微调模型：

可使用社区微调版（如 Llama3.1-8B-Chinese-Chat），通过 Ollama 拉取或自建 Modelfile 导入 GGUF 后运行。

进阶高性能推理：

若需更高并发/吞吐，可考虑 vLLM 等推理引擎替代 Ollama。
附：自建 Modelfile 示例（用于加载本地 GGUF）

将 GGUF 放至如 /home/cec/models/Llama3-70B-Chinese-Chat-q4_0.gguf
Modelfile 内容：

FROM /home/cec/models/Llama3-70B-Chinese-Chat-q4_0.gguf
TEMPLATE """{{ if .System }}<|start_header_id|>system<|end_header_id|>{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>{{ .Response }}<|eot_id|>"""
SYSTEM ""
PARAMETER num_keep 24
PARAMETER stop <|start_header_id|>
PARAMETER stop <|end_header_id|>
PARAMETER stop <|eot_id|>
PARAMETER stop assistant
PARAMETER stop Assistant

创建并运行：

ollama create llama3-zh-inst -f Modelfile
ollama run llama3-zh-inst