在Linux系统中如何运行Llama 3 - AI技术

在 Linux 上运行 Llama 3 的实用步骤
一环境准备与硬件建议

操作系统：建议使用 Ubuntu/Debian/CentOS 等主流发行版，已安装 Docker（如需容器化）。
硬件建议：
CPU 模式：至少 10 核 CPU + 16GB 内存（可运行 8B 参数模型）。
GPU 模式：推荐 NVIDIA 显卡，驱动与 CUDA 12.2+ 环境；显存越大体验越好（如 A10/A100 等）。
磁盘空间：为模型与缓存预留 20GB+（视模型与版本而定）。

二安装与启动 Ollama

方式一本机安装脚本（推荐）
执行安装脚本并启动服务：

curl -fsSL https://ollama.com/install.sh | sh
ollama serve

验证安装：

ollama --version

方式二手动安装与 systemd 托管
下载并解压到自定义目录（示例：/opt/ollama）：

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama.tgz
sudo mkdir -p /opt/ollama
sudo tar -xzf ollama.tgz -C /opt/ollama

创建服务文件 /etc/systemd/system/ollama.service：

[Service]
ExecStart=/opt/ollama/bin/ollama serve
Environment="OLLAMA_MODELS=/opt/ollama/models"
[Install]
WantedBy=multi-user.target

启动与开机自启：

sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama

方式三 Docker 运行（CPU 或 GPU）
CPU：

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

GPU（需已安装 NVIDIA Container Toolkit）：

docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

进入容器运行模型：

docker exec -it ollama ollama run llama3

以上步骤完成后，Ollama 默认会在 http://127.0.0.1:11434 提供 API 服务。
三运行 Llama 3 模型

拉取并运行默认 8B 模型：

ollama run llama3

指定参数版本（如 70B）：

ollama run llama3:70b

仅下载不运行：

ollama pull llama3

常用管理命令：

ollama list        # 查看已安装模型
ollama rm llama3    # 删除模型

首次运行会自动下载模型，网络状况不同耗时不同。
四远程访问与 API 调用

允许远程访问
修改服务环境变量（示例为 systemd 服务）：

sudo systemctl edit ollama
# 在打开的编辑器中添加：
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

重载并重启：

sudo systemctl daemon-reload
sudo systemctl restart ollama

验证服务可达：

curl http://服务器IP:11434
# 或
curl http://服务器IP:11434/api/generate -d '{ "model":"llama3", "prompt":"用中文介绍你自己", "stream":false }'

常用 API 示例
非流式生成：

curl http://localhost:11434/api/generate -d '{ "model":"llama3", "prompt":"Translate to Chinese: Meta Llama 3", "stream":false }'

对话式调用：

curl http://localhost:11434/api/chat -d '{ "model":"llama3", "messages":[ {"role":"system","content":"你是一名翻译家。"},{"role":"user","content":"Hello, world!"} ], "stream":false }'

如需从外部访问，请确保安全组/防火墙已放行 11434 端口。
五可视化界面 Open WebUI（可选）

Docker 启动（本机或服务器均可）：

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data --name open-webui --restart always \
ghcr.io/open-webui/open-webui:main

访问地址：http://localhost:3000（服务器请用服务器 IP）。
如 Ollama 在宿主机而非容器内，需确保容器可访问宿主机端口（使用 --add-host=host.docker.internal:host-gateway）。
与 Ollama 分离的模型路径（可选）

docker run -d -p 3000:8080 \
-v /opt/ollama/models:/app/backend/models \
-v open-webui:/app/backend/data --name open-webui --restart always \
ghcr.io/open-webui/open-webui:main

Open WebUI 提供类 ChatGPT 的网页界面，支持多模型、文件上传、对话管理等。