Linux环境如何配置Llama3

AI技术
小华
2025-12-07

Linux环境配置 Llama 3 实操指南
一 环境准备与安装

  • 硬件建议
  • CPU模式:至少10核CPU + 16GB内存(可运行8B参数模型)
  • GPU模式:建议NVIDIA 显卡,显存≥8GB,并准备≥20GB磁盘空间(模型与依赖)
  • 安装 Ollama(Linux一键脚本)
  • 执行:curl -fsSL https://ollama.com/install.sh | sh
  • 安装完成后会自动创建ollama用户与systemd服务,API默认监听127.0.0.1:11434
  • 验证:ollama -v 显示版本号;如提示未检测到NVIDIA/AMD GPU,将以CPU-only模式运行(不影响功能,但速度较慢)

二 模型拉取与本地运行

  • 拉取并运行默认模型(8B)
  • 运行:ollama run llama3(首次会自动下载并进入交互)
  • 常用命令
  • ollama pull llama3:仅拉取模型
  • ollama list:查看已安装模型
  • ollama rm <模型名>:删除模型
  • 指定更大模型(如70B)
  • 运行:ollama run llama3:70b(需更高显存与更长下载时间)

三 远程访问与 API 调用

  • 配置远程访问(修改 systemd 服务)
  • 编辑:sudo vim /etc/systemd/system/ollama.service
  • [Service] 下添加或修改:
  • Environment="OLLAMA_HOST=0.0.0.0"(允许外部访问)
  • Environment="OLLAMA_ORIGINS=*"(允许跨域,按需开启)
  • 可选:Environment="OLLAMA_MODELS=/your/custom/models/path"(自定义模型存放路径)
  • 使配置生效:
  • sudo systemctl daemon-reload
  • sudo systemctl restart ollama
  • 验证服务与连通性
  • 本地:curl http://127.0.0.1:11434,应返回 “Ollama is running”
  • 远程:curl http://<服务器IP>:11434,返回同上即正常
  • 简单 API 调用示例(非流式)
  • 请求:
curl http://127.0.0.1:11434/api/generate -d '{
"model": "llama3",
"prompt": "Describe the scene of sunny weather after raining",
"stream": false
}'
  • 聊天接口(messages):
curl http://127.0.0.1:11434/api/chat -d '{
"model": "llama3",
"messages": [
{"role": "system", "content": "你是一名资深翻译家,请将以下内容翻译成中文"},
{"role": "user", "content": "What a lovely scenario!\n\nAs you step out into the bright, open air."}
],
"stream": false
}'
  • 提示:如需公网访问,请同时配置防火墙/云安全组放行11434端口

四 可视化界面 Open WebUI(Docker)

  • 一键启动(服务端或本机)
  • 服务端(指定 Ollama 地址):
docker run -d -p 3000:8080 \
-e OLLAMA_BASE_URL=http://<服务器IP>:11434 \
-v open-webui:/app/backend/data \
--name open-webui --restart always \
ghcr.io/open-webui/open-webui:main
  • 本机(Linux/macOS 客户端常用):
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui --restart always \
ghcr.io/open-webui/open-webui:main
  • 访问与使用
  • 浏览器打开:http://localhost:3000(本机)或 http://<;服务器IP>:3000(服务器)
  • 首次进入注册账号,在设置中选择模型为llama3即可对话
  • 国内网络拉取镜像较慢时,可替换为国内镜像源(如:ghcr.nju.edu.cn/open-webui/open-webui:main

五 常见问题与优化

  • 端口占用
  • 检查:netstat -tulpn | grep 11434
  • 处理:sudo kill ollama serve 重启服务
  • 显存不足
  • 优先选择llama3:8B;必要时关闭占用显存的其他进程
  • 下载缓慢或中断
  • 重试命令:ollama run llama3;或先 ollama pull llama3 再运行
  • 性能优化(进阶)
  • 使用vLLM进行高吞吐推理(适合生产/高并发)
  • 在 Transformers 推理中启用4-bit 量化降低显存占用(示例:load_in_4bit=True, device_map="auto"
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序