如何简化Linux上Llama3的部署流程

AI技术
小华
2026-01-11

最简流程 Linux 一键部署 Llama 3
一 极速一条命令

  • 本机安装并启动服务(会自动拉取模型):
  • CPU 或已装好驱动的 GPU 机器:
curl -fsSL https://ollama.com/install.sh | sh
ollama run llama3
  • 首次运行会自动下载并进入交互,后续可直接用命令行对话。服务默认监听 http://127.0.0.1:11434

二 远程访问与 API 调用

  • 允许远程访问(修改服务监听地址):

1) 编辑服务文件

sudo systemctl edit ollama

在打开的编辑器中添加:

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

2) 重启服务

sudo systemctl daemon-reload
sudo systemctl restart ollama
  • 本机或远程简单调用示例:
curl http://127.0.0.1:11434/api/generate -d '{"model":"llama3","prompt":"用一句话介绍Linux","stream":false}'

若从外部访问,将 127.0.0.1 替换为服务器 IP
三 GPU 加速与 Docker 部署

  • 原生 GPU(已安装 NVIDIA 驱动与容器工具链 nvidia-container-toolkit):
docker run -d --gpus=all \
-v $PWD/ollama:/root/.ollama \
-p 11434:11434 --name ollama ollama/ollama
docker exec -it ollama ollama run llama3
  • CPU-only Docker:
docker run -d \
-v $PWD/ollama:/root/.ollama \
-p 11434:11434 --name ollama ollama/ollama
docker exec -it ollama ollama run llama3
  • 说明:Ollama 在 Docker 中同样通过 11434 端口提供 API;进入容器后执行命令与本地一致。

四 可视化界面 Open WebUI

  • 一键启动 Web 管理界面(与 Ollama 服务同机或网络可达):
docker run -d -p 3000:8080 \
-v open-webui:/app/backend/data \
--name open-webui --restart always \
ghcr.io/open-webui/open-webui:main

五 常见问题与快速排查

  • 端口占用:
sudo lsof -i :11434
kill  && ollama serve
  • 远程访问不通:确认云服务器安全组/防火墙放行 11434,且服务已设置 OLLAMA_HOST=0.0.0.0:11434 并重启。
  • 显存与模型规格:显存建议 8B ≥ 8GB、13B ≥ 16GB;显存不足可选更小模型或在 CPU 上运行(速度较慢)。
  • 首次拉取慢或中断:重复执行 ollama run llama3 会自动续传;也可先 ollama pull llama3 再运行。
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序