Linux中如何配置Llama 3环境 - AI技术

Linux配置 Llama 3环境
一环境准备与安装

硬件建议
CPU模式：至少10核 + 16GB内存（运行8B参数模型）
GPU模式：建议NVIDIA显卡，驱动就绪；显存8GB+可流畅运行8B，更大模型需更高显存
安装 Ollama（Linux一键脚本）
执行：curl -fsSL https://ollama.com/install.sh | sh
验证：ollama --version
可选手动安装与自定义路径
下载：curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama.tgz
解压：sudo mkdir -p /opt/ollama && sudo tar -xzf ollama.tgz -C /opt/ollama
后续通过 systemd 指定可执行文件路径运行

二启动服务与远程访问

使用 systemd 管理（推荐）
编辑服务：sudo vim /etc/systemd/system/ollama.service
示例（可按需增减环境变量）：

[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/opt/ollama/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_ORIGINS=*"
Environment="OLLAMA_MODELS=/opt/ollama/models"
[Install]
WantedBy=multi-user.target

生效与启动：
sudo systemctl daemon-reload && sudo systemctl enable ollama && sudo systemctl start ollama
端口与连通性
默认端口：11434
本机验证：curl http://127.0.0.1:11434（返回“Ollama is running”即正常）
远程验证：curl http://服务器IP:11434
常见问题
端口占用：sudo lsof -i :11434 查 PID 后 kill 再启动
若服务已运行，会提示“address already in use”

三运行 Llama 3 与基础命令

拉取并运行模型
默认 8B：ollama run llama3
指定版本：ollama run llama3:70b
首次运行会自动下载模型（时间与网络相关）
常用命令
启动服务：ollama serve
重启服务：sudo systemctl restart ollama
查看端口：netstat -tulpn | grep 11434
API 调用示例（生成接口）
curl http://localhost:11434/api/generate -d '{ "model":"llama3", "prompt":"请用中文介绍Llama 3", "stream":false }'
模型存放路径
默认：~/.ollama/models
自定义：设置环境变量 OLLAMA_MODELS=/your/path 并在服务中声明

四可视化界面 Open WebUI

Docker 启动（客户端/同机部署）
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
访问：http://localhost:3000，在界面中选择Llama 3使用
Docker 启动（服务端，Ollama 在宿主机）
建议网络模式：--network=host（避免容器访问宿主机端口问题）
如不使用 host 网络，请确保 Docker 能解析宿主机（如使用 --add-host=host.docker.internal:host-gateway）
防火墙放行（如 firewalld）
firewall-cmd --permanent --add-port=3000/tcp && firewall-cmd --reload
模型路径映射（可选）
将宿主机模型目录挂载到容器：docker run ... -v /opt/ollama/models:/app/backend/models ...

五常见问题与优化

模型下载慢/失败
检查网络与代理；必要时先在本地下载后放入 OLLAMA_MODELS 指定目录
显存不足
选择更小参数模型（如从70B切换到8B），或关闭占用显存的其他进程
端口冲突
修改服务端口（OLLAMA_HOST）或容器映射端口（如 -p 5000:8080）
中文能力
Llama 3对中文支持相对一般，若需更强中文效果，可考虑微调或使用专门的中文优化模型
生产建议
使用 systemd 托管 Ollama，分离模型目录与系统盘，开启日志与监控，限制容器资源