Linux系统启动 Llama 3 的实用指南
一 准备与环境检查
uname -r(建议 ≥ 5.4)nvidia-smi(如未检测到 GPU,Ollama 将仅以 CPU 模式运行)上述系统要求与 GPU 配置为 Llama 3 在 Linux 上高效运行的常见前提。
二 方式一 Ollama 一键启动(推荐)
curl -fsSL https://ollama.com/install.sh | shollama run llama3(首次会自动下载模型,默认 8B)ollama pull llama3systemctl status ollamasystemctl restart ollamaollama listollama serve以上步骤覆盖了安装、拉取、运行与常用运维命令,适合快速上手与本地开发测试。
三 远程访问与 Web 界面
/etc/systemd/system/ollama.service,在 [Service] 下添加或修改:Environment="OLLAMA_HOST=0.0.0.0:11434"(监听所有地址)Environment="OLLAMA_ORIGINS=*"systemctl daemon-reload && systemctl restart ollamanetstat -tulpn | grep 11434 或 ss -ltnp | grep 11434curl http://服务器IP:11434(应返回 “Ollama is running”)docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://服务器IP:11434 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:mainhttp://localhost:3000;服务端访问:http://服务器IP:3000以上配置可快速开启远程 API 与可视化聊天界面,便于团队或跨机访问。
四 方式二 原生 Transformers + GPU 推理(进阶)
pip install torch torchvision torchaudio(选择与 CUDA 匹配的版本)pip install transformersfrom transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "./llama3" # 已下载的 Llama 3 权重目录
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path)
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)
prompt = "今天的天气怎么样?"
inputs = tokenizer(prompt, return_tensors="pt").to(device)
outputs = model.generate(**inputs, max_length=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))max_length 或使用更小批次以缓解 CUDA out of memory。五 常见问题与排障
Error: listen tcp 127.0.0.1:11434: bind: address already in usenetstat -tulpn | grep 11434 或 ss -ltnp | grep 11434kill ,或重启服务:systemctl restart ollamaOLLAMA_HOST=0.0.0.0:11434 已设置,云服务器需放行 11434/tcp 安全组规则,并用 curl http://服务器IP:11434 验证。Couldn't find ‘/home/用户名/.ollama/id_ed25519’ 属正常行为,会自动生成。WARNING: No NVIDIA/AMD GPU detected. Ollama will run in CPU-only mode.nvidia-smi 正常。以上为最常见的启动与连通性问题及处理思路。