Linux环境下如何运行Llama3

AI技术
小华
2025-12-06

Linux环境运行 Llama 3 实操指南
一 环境准备与安装

  • 硬件建议:CPU 模式建议至少10 核 + 16GB 内存;有 NVIDIA GPU 时建议显存≥8GB,更推荐≥16GB以流畅运行 8B70B 模型。
  • 安装 Ollama(Linux 一键脚本):
  • 执行:curl -fsSL https://ollama.com/install.sh | sh
  • 安装完成后会自动创建 systemd 服务,API 默认监听 127.0.0.1:11434
  • 可选 GPU(Docker):需提前安装 NVIDIA 驱动NVIDIA Container Toolkit,随后可用带 --gpus=all 的容器运行 Ollama。

二 快速运行 Llama 3

  • 命令行交互:
  • 运行:ollama run llama3(首次会自动拉取模型,默认 8B
  • 指定版本:ollama run llama3:70b(需更高显存/内存)
  • 常用管理命令:ollama pull llama3ollama listollama rm ollama --version
  • 服务与端口:默认监听 11434;若需前台调试可执行 ollama serve

三 远程访问与 API 调用

  • 允许远程访问(修改服务环境变量):
  • 编辑:sudo systemctl edit ollama 或编辑文件 /etc/systemd/system/ollama.service
  • [Service] 下添加:
  • Environment="OLLAMA_HOST=0.0.0.0:11434"(监听所有地址)
  • Environment="OLLAMA_ORIGINS=*"(允许跨域,按需开启)
  • 使配置生效:sudo systemctl daemon-reload && sudo systemctl restart ollama
  • 验证:curl http://服务器IP:11434,返回 “Ollama is running” 即正常。
  • API 示例(生成接口):
  • curl http://localhost:11434/api/generate -d '{ "model":"llama3", "prompt":"请用中文介绍Llama 3", "stream":false }'
  • 安全提示:开放到公网前请配置防火墙/反向代理/鉴权,避免未授权访问。

四 使用 Docker 运行

  • CPU 模式:
  • docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
  • GPU 模式(需 nvidia-container-toolkit):
  • docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
  • 进入容器运行模型:
  • docker exec -it ollama ollama run llama3

五 部署 Open WebUI 可视化界面

  • Docker 启动(默认端口 3000):
  • docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
  • 访问:浏览器打开 http://服务器IP:3000,注册登录后在设置中选择 Llama 3 即可使用。

六 常见问题与优化

  • 端口占用:检查 netstat -tulpn | grep 11434lsof -i :11434,必要时结束占用进程后重启服务。
  • 显存不足:改用更小模型(如 llama3:8b)、关闭占用显存程序,或使用 CPU 模式。
  • 模型下载慢:可更换镜像源或在网络条件更好的环境重试;必要时配置代理。
  • 自定义模型存放路径:在 systemd 服务中设置 Environment="OLLAMA_MODELS=/your/path",并确保目录权限与磁盘空间充足。
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序