在 Linux 服务器上安装与运行 Llama 3 的实用步骤
一 环境准备与安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
ollama --version
https://ollama.com/download/ollama-linux-amd64,拷入服务器后放到 /usr/bin/ollama 并 chmod +x。以上步骤适用于 Llama 3 / 3.1 系列模型。
二 拉取并运行 Llama 3
ollama run llama3
ollama run llama3.1 # 默认 8B
ollama run llama3:70b # 70B 需更高内存/显存
ollama pull llama3
三 开放外网访问与 API 验证
编辑文件 /etc/systemd/system/ollama.service,在 [Service] 下添加或修改:
Environment="OLLAMA_HOST=0.0.0.0:11434"
然后执行:
systemctl daemon-reload && systemctl restart ollama
firewall-cmd --add-port=11434/tcp --permanent && firewall-cmd --reload
curl http://服务器IP:11434 # 应返回 “Ollama is running”
API 生成示例:
curl http://服务器IP:11434/api/generate -d '{
"model":"llama3",
"prompt":"请用中文介绍 Llama 3","stream":false
}'
四 可选 Web 界面 Open WebUI
docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://服务器IP:11434 \
-v open-webui:/app/backend/data --name open-webui --restart always \
ghcr.io/open-webui/open-webui:main
五 常见问题与进阶
lsof -i :11434 查看占用 PID,kill
先在外网机用 install.sh 下载 ollama-linux-
可使用社区微调版(如 Llama3.1-8B-Chinese-Chat),通过 Ollama 拉取或自建 Modelfile 导入 GGUF 后运行。
若需更高并发/吞吐,可考虑 vLLM 等推理引擎替代 Ollama。
附:自建 Modelfile 示例(用于加载本地 GGUF)
FROM /home/cec/models/Llama3-70B-Chinese-Chat-q4_0.gguf
TEMPLATE """{{ if .System }}<|start_header_id|>system<|end_header_id|>{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>{{ .Response }}<|eot_id|>"""
SYSTEM ""
PARAMETER num_keep 24
PARAMETER stop <|start_header_id|>
PARAMETER stop <|end_header_id|>
PARAMETER stop <|eot_id|>
PARAMETER stop assistant
PARAMETER stop Assistant
ollama create llama3-zh-inst -f Modelfile
ollama run llama3-zh-inst