如何简化Linux上Llama3的部署流程

AI技术

小华

2026-01-11

最简流程 Linux 一键部署 Llama 3
一极速一条命令

本机安装并启动服务（会自动拉取模型）：
CPU 或已装好驱动的 GPU 机器：

curl -fsSL https://ollama.com/install.sh | sh
ollama run llama3

首次运行会自动下载并进入交互，后续可直接用命令行对话。服务默认监听 http://127.0.0.1:11434。

二远程访问与 API 调用

允许远程访问（修改服务监听地址）：

1) 编辑服务文件

sudo systemctl edit ollama

在打开的编辑器中添加：

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

2) 重启服务

sudo systemctl daemon-reload
sudo systemctl restart ollama

本机或远程简单调用示例：

curl http://127.0.0.1:11434/api/generate -d '{"model":"llama3","prompt":"用一句话介绍Linux","stream":false}'

若从外部访问，将 127.0.0.1 替换为服务器 IP。
三 GPU 加速与 Docker 部署

原生 GPU（已安装 NVIDIA 驱动与容器工具链 nvidia-container-toolkit）：

docker run -d --gpus=all \
-v $PWD/ollama:/root/.ollama \
-p 11434:11434 --name ollama ollama/ollama
docker exec -it ollama ollama run llama3

CPU-only Docker：

docker run -d \
-v $PWD/ollama:/root/.ollama \
-p 11434:11434 --name ollama ollama/ollama
docker exec -it ollama ollama run llama3

说明：Ollama 在 Docker 中同样通过 11434 端口提供 API；进入容器后执行命令与本地一致。

四可视化界面 Open WebUI

一键启动 Web 管理界面（与 Ollama 服务同机或网络可达）：

docker run -d -p 3000:8080 \
-v open-webui:/app/backend/data \
--name open-webui --restart always \
ghcr.io/open-webui/open-webui:main

如 Ollama 不在本机，设置 OLLAMA_BASE_URL=http://服务器IP:11434。浏览器访问 http://服务器IP:3000 即可使用。

五常见问题与快速排查

端口占用：

sudo lsof -i :11434
kill  && ollama serve

远程访问不通：确认云服务器安全组/防火墙放行 11434，且服务已设置 OLLAMA_HOST=0.0.0.0:11434 并重启。
显存与模型规格：显存建议 8B ≥ 8GB、13B ≥ 16GB；显存不足可选更小模型或在 CPU 上运行（速度较慢）。
首次拉取慢或中断：重复执行 ollama run llama3 会自动续传；也可先 ollama pull llama3 再运行。

推荐问答

售后保障: 7*24小时售后电话
400-100-2938

大客户商务: 大客户商务咨询或GPU资源供应; 邮件联系：yixiong@yisu.com; 微信联系：zhouyixiong

售前微信客服

售后微信客服

在线支付

线下汇款

总计费用： 10 元

我已阅读并同意《亿速云云服务使用协议》和《亿速云隐私政策声明》

开户银行	银行账号	开户名称
平安银行广州分行营业部	1500 0089 461040	广州亿速云计算有限公司

注：转账到上述银行账号后，需联系我司业务员或财务（联系电话：400 100 2938）确认入账。