Linux系统中如何启动Llama3 - AI技术

Linux系统启动 Llama 3 的实用指南
一准备与环境检查

建议使用 Ubuntu 20.04/22.04 或 CentOS 8+，至少 16GB 内存（运行 8B 模型），磁盘预留 50GB+ 空间。
如需 GPU 加速，准备 NVIDIA GPU（CUDA 11+），安装对应版本的 CUDA/cuDNN 与驱动。
快速自检：
查看内核：uname -r（建议 ≥ 5.4）
查看驱动：nvidia-smi（如未检测到 GPU，Ollama 将仅以 CPU 模式运行）

上述系统要求与 GPU 配置为 Llama 3 在 Linux 上高效运行的常见前提。
二方式一 Ollama 一键启动（推荐）

安装 Ollama（Linux 一键脚本）：
curl -fsSL https://ollama.com/install.sh | sh
安装完成后会自动创建 systemd 服务，API 默认监听 127.0.0.1:11434。
拉取并运行模型：
交互式运行：ollama run llama3（首次会自动下载模型，默认 8B）
仅拉取：ollama pull llama3
常用管理命令：
查看服务状态：systemctl status ollama
重启服务：systemctl restart ollama
查看本地模型：ollama list
手动前台启动服务（调试用）：ollama serve

以上步骤覆盖了安装、拉取、运行与常用运维命令，适合快速上手与本地开发测试。
三远程访问与 Web 界面

允许远程访问：编辑服务文件 /etc/systemd/system/ollama.service，在 [Service] 下添加或修改：
Environment="OLLAMA_HOST=0.0.0.0:11434"（监听所有地址）
如需跨域：Environment="OLLAMA_ORIGINS=*"
修改后执行：systemctl daemon-reload && systemctl restart ollama
验证监听端口：
netstat -tulpn | grep 11434 或 ss -ltnp | grep 11434
远程测试：curl http://服务器IP:11434（应返回 “Ollama is running”）
一键部署 Open WebUI（Docker）：
服务端：docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://服务器IP:11434 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
客户端访问：http://localhost:3000；服务端访问：http://服务器IP:3000

以上配置可快速开启远程 API 与可视化聊天界面，便于团队或跨机访问。
四方式二原生 Transformers + GPU 推理（进阶）

安装依赖：
pip install torch torchvision torchaudio（选择与 CUDA 匹配的版本）
pip install transformers
最小推理示例（Python）：

from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "./llama3"  # 已下载的 Llama 3 权重目录
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path)
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)
prompt = "今天的天气怎么样？"
inputs = tokenizer(prompt, return_tensors="pt").to(device)
outputs = model.generate(**inputs, max_length=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

性能提示：确保 CUDA 与 PyTorch 版本匹配，必要时降低 max_length 或使用更小批次以缓解 CUDA out of memory。

五常见问题与排障

端口被占用：Error: listen tcp 127.0.0.1:11434: bind: address already in use
检查占用：netstat -tulpn | grep 11434 或 ss -ltnp | grep 11434
结束进程：kill ，或重启服务：systemctl restart ollama
远程访问不通：确认 OLLAMA_HOST=0.0.0.0:11434 已设置，云服务器需放行 11434/tcp 安全组规则，并用 curl http://服务器IP:11434 验证。
首次启动提示生成密钥：Couldn't find ‘/home/用户名/.ollama/id_ed25519’ 属正常行为，会自动生成。
无 GPU 提示：WARNING: No NVIDIA/AMD GPU detected. Ollama will run in CPU-only mode.
如需 GPU，安装/升级 NVIDIA 驱动 与 CUDA，确保 nvidia-smi 正常。

以上为最常见的启动与连通性问题及处理思路。