Linux系统中如何启动Llama3

AI技术
小华
2025-12-07

Linux系统启动 Llama 3 的实用指南
一 准备与环境检查

  • 建议使用 Ubuntu 20.04/22.04CentOS 8+,至少 16GB 内存(运行 8B 模型),磁盘预留 50GB+ 空间。
  • 如需 GPU 加速,准备 NVIDIA GPU(CUDA 11+),安装对应版本的 CUDA/cuDNN 与驱动。
  • 快速自检:
  • 查看内核:uname -r(建议 ≥ 5.4
  • 查看驱动:nvidia-smi(如未检测到 GPU,Ollama 将仅以 CPU 模式运行)

上述系统要求与 GPU 配置为 Llama 3 在 Linux 上高效运行的常见前提。
二 方式一 Ollama 一键启动(推荐)

  • 安装 Ollama(Linux 一键脚本):
  • curl -fsSL https://ollama.com/install.sh | sh
  • 安装完成后会自动创建 systemd 服务,API 默认监听 127.0.0.1:11434
  • 拉取并运行模型:
  • 交互式运行:ollama run llama3(首次会自动下载模型,默认 8B
  • 仅拉取:ollama pull llama3
  • 常用管理命令:
  • 查看服务状态:systemctl status ollama
  • 重启服务:systemctl restart ollama
  • 查看本地模型:ollama list
  • 手动前台启动服务(调试用):ollama serve

以上步骤覆盖了安装、拉取、运行与常用运维命令,适合快速上手与本地开发测试。
三 远程访问与 Web 界面

  • 允许远程访问:编辑服务文件 /etc/systemd/system/ollama.service,在 [Service] 下添加或修改:
  • Environment="OLLAMA_HOST=0.0.0.0:11434"(监听所有地址)
  • 如需跨域:Environment="OLLAMA_ORIGINS=*"
  • 修改后执行:systemctl daemon-reload && systemctl restart ollama
  • 验证监听端口:
  • netstat -tulpn | grep 11434ss -ltnp | grep 11434
  • 远程测试:curl http://服务器IP:11434(应返回 “Ollama is running”
  • 一键部署 Open WebUI(Docker):
  • 服务端:docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://服务器IP:11434 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
  • 客户端访问:http://localhost:3000;服务端访问:http://服务器IP:3000

以上配置可快速开启远程 API 与可视化聊天界面,便于团队或跨机访问。
四 方式二 原生 Transformers + GPU 推理(进阶)

  • 安装依赖:
  • pip install torch torchvision torchaudio(选择与 CUDA 匹配的版本)
  • pip install transformers
  • 最小推理示例(Python):
from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "./llama3"  # 已下载的 Llama 3 权重目录
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path)
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)
prompt = "今天的天气怎么样?"
inputs = tokenizer(prompt, return_tensors="pt").to(device)
outputs = model.generate(**inputs, max_length=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
  • 性能提示:确保 CUDAPyTorch 版本匹配,必要时降低 max_length 或使用更小批次以缓解 CUDA out of memory

五 常见问题与排障

  • 端口被占用:Error: listen tcp 127.0.0.1:11434: bind: address already in use
  • 检查占用:netstat -tulpn | grep 11434ss -ltnp | grep 11434
  • 结束进程:kill ,或重启服务:systemctl restart ollama
  • 远程访问不通:确认 OLLAMA_HOST=0.0.0.0:11434 已设置,云服务器需放行 11434/tcp 安全组规则,并用 curl http://服务器IP:11434 验证。
  • 首次启动提示生成密钥:Couldn't find ‘/home/用户名/.ollama/id_ed25519’ 属正常行为,会自动生成。
  • 无 GPU 提示:WARNING: No NVIDIA/AMD GPU detected. Ollama will run in CPU-only mode.
  • 如需 GPU,安装/升级 NVIDIA 驱动CUDA,确保 nvidia-smi 正常。

以上为最常见的启动与连通性问题及处理思路。

亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序