Linux中Llama 3的安装指南 - AI技术

Linux 上安装与运行 Llama 3 的实用指南
一安装方式与前置条件

推荐方式：使用 Ollama 一键安装与运行，适合快速上手与本地/服务器部署。支持 Linux x86_64，提供 systemd 服务 与 REST API（默认端口 11434），也可配合 Docker/Open WebUI 使用。硬件建议：CPU 模式至少 10 核 + 16GB 内存 可运行 8B；GPU 建议使用 NVIDIA（CUDA 12.2+），如 A10 等，显存 ≥8GB 体验更佳。若使用官方脚本安装，需确保系统可访问外网与证书链正常。

二方式一 Ollama 快速安装与运行

一键安装 Ollama（Linux）
执行：curl -fsSL https://ollama.com/install.sh | sh
验证：ollama -v 显示版本号即成功。
作为系统服务运行（推荐）
创建服务文件 /etc/systemd/system/ollama.service，示例：

[Service]
ExecStart=/usr/local/bin/ollama serve
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_ORIGINS=*"
Environment="OLLAMA_MODELS=/opt/ollama/models"
User=ollama
Group=ollama
Restart=always
RestartSec=3
[Install]
WantedBy=multi-user.target

启用与启动：

sudo systemctl daemon-reload
sudo systemctl enable --now ollama

本地自检：curl http://127.0.0.1:11434 返回 “Ollama is running” 表示服务就绪。
拉取并运行 Llama 3
运行即拉取：ollama run llama3（默认 8B）
指定版本：ollama run llama3:70b
仅拉取：ollama pull llama3:8b
API 快速调用（生成接口）

curl http://localhost:11434/api/generate -d '{ "model":"llama3:8b", "prompt":"用一句话介绍 Llama 3", "stream":false }'

可选：使用 Docker 运行 Open WebUI（图形化聊天界面）

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data --name open-webui --restart always \
ghcr.io/open-webui/open-webui:main

浏览器访问 http://localhost:3000，在模型列表选择 Llama 3 即可使用。
三方式二源码方式 Meta 官方仓库

适用场景：需要阅读/修改源码、基于官方仓库做二次开发或自定义流程。
基本步骤
申请模型下载链接：访问 https://llama.meta.com/llama-downloads/ 填写信息，邮件获取下载脚本与链接。
准备环境（建议 conda）：

conda create -n llama3 python=3.8
conda activate llama3

克隆仓库并安装依赖：

git clone https://github.com/meta-llama/llama3.git
cd llama3
pip install -e .

下载权重：运行仓库提供的脚本，按提示粘贴邮件中的下载链接，选择所需模型（如 8B-Instruct）。
运行示例：按仓库 README 提供的对话脚本（如 chat.py）进行推理；注意遵守 Llama 3 Community License Agreement。

四常见问题与优化建议

模型下载慢或失败
检查网络与代理；Ollama 可设置环境变量 OLLAMA_MODELS 指向有足够空间的目录，必要时先行下载模型文件再运行；Docker 部署时可将宿主模型目录挂载到容器内（如 -v /opt/ollama/models:/app/backend/models）。
端口与远程访问
Ollama 默认端口 11434；如需局域网/外网访问，服务需设置 OLLAMA_HOST=0.0.0.0:11434 与 OLLAMA_ORIGINS=*，并开放防火墙端口；Open WebUI 默认映射 3000:8080，端口冲突时修改左侧宿主机端口。
资源与显存不足
8B 可在 CPU 模式下运行但速度较慢；显存 ≥8GB 更流畅。若显存不足，优先选择 8B 或关闭占用显存的其他进程；也可考虑量化或更小的模型变体（若可用）。
服务管理
使用 systemd 管理服务更可靠：sudo systemctl restart ollama、sudo journalctl -u ollama -f 查看日志。