Linux上Llama 3的安装流程 - AI技术

Linux上Llama 3安装流程
一环境准备与硬件建议

操作系统：建议使用Ubuntu/Debian/CentOS等主流发行版，已安装curl与基础编译工具。
硬件建议：
CPU模式：至少10核 + 16GB内存（可运行8B参数模型，速度较慢）。
GPU模式：推荐NVIDIA显卡，驱动支持CUDA 12.2+；显存建议≥8GB（8B量化可低显存运行，70B需多卡/高显存）。
磁盘空间：为模型与缓存预留20GB+。

二方式一 Ollama一键安装与运行（推荐）

安装Ollama
一键脚本安装：执行curl -fsSL https://ollama.com/install.sh | sh，安装完成后执行ollama -v验证。
手动安装（可选，便于自定义路径）：

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama.tgz
sudo mkdir -p /opt/ollama
sudo tar -xzf ollama.tgz -C /opt/ollama

配置为系统服务（推荐）

sudo tee /etc/systemd/system/ollama.service >/dev/null <<'EOF'
[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/opt/ollama/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="OLLAMA_MODELS=/opt/ollama/models"
[Install]
WantedBy=multi-user.target
EOF
sudo systemctl daemon-reload
sudo systemctl enable --now ollama

拉取并运行Llama 3
默认运行8B：ollama run llama3
指定版本（如70B）：ollama run llama3:70b
仅拉取：ollama pull llama3
查看本地模型：ollama list
常用运维命令
启动/停止/重启服务：sudo systemctl start|stop|restart ollama
查看服务状态：sudo systemctl status ollama
查看日志：journalctl -u ollama -f

三方式二源码手动部署与API调用

安装依赖

sudo apt update
sudo apt install -y python3 python3-pip git-lfs
pip install torch torchvision torchaudio transformers

从Hugging Face加载模型（示例）

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "meta-llama/Llama-3-8b"  # 或本地路径
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
prompt = "Hello, Llama 3!"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=64)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

说明
需同意Meta Llama 3许可并完成Hugging Face登录/授权；大模型建议使用量化与GPU加速。

四可视化界面与模型存放路径

Open WebUI（Docker，推荐）

docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui --restart always \
ghcr.io/open-webui/open-webui:main

访问：浏览器打开http://localhost:3000，在模型列表选择Llama 3。
自定义模型目录：-v /opt/ollama/models:/app/backend/models
轻量Web UI（Node.js）

git clone https://github.com/ollama-webui/ollama-webui-lite.git
cd ollama-webui-lite
npm install
npm run dev

修改模型存放路径（Ollama）
方式一：设置环境变量OLLAMA_MODELS=/your/models/path（如/opt/ollama/models），并重启服务。
方式二：在systemd服务中声明Environment="OLLAMA_MODELS=/opt/ollama/models"。

五常见问题与优化

端口冲突：修改映射端口（如-p 5000:8080）或关闭占用进程。
模型下载慢/失败：检查网络与代理；可先ollama pull llama3再运行；必要时手动将模型文件放入OLLAMA_MODELS目录。
显存不足：优先选择8B或量化版本；关闭占用显存程序；必要时改用CPU模式（速度较慢）。
远程访问：在/etc/systemd/system/ollama.service中设置Environment="OLLAMA_HOST=0.0.0.0"并重启服务；如需跨域可加Environment="OLLAMA_ORIGINS=*"（仅在内网可信环境使用）。
API调用示例（本地端口11434）

curl http://localhost:11434/api/generate -d '{
"model":"llama3",
"prompt":"请用中文介绍Llama 3。",
"stream":false
}'