Linux上配置Llama3环境的实用指南
一 环境准备与安装
curl -fsSL https://ollama.com/install.sh | sh二 快速使用Ollama运行Llama3
ollama run llama3(首次会自动下载并进入交互;也可先ollama pull llama3再运行)。ollama run llama3:70b(更大模型对显存要求更高)。ollama list(查看本地模型)、ollama rm (删除模型)、ollama serve(前台启动服务)。curl http://127.0.0.1:11434,返回“Ollama is running”即正常。三 远程访问与Open WebUI可视化
sudo systemctl edit --full ollama 或编辑/etc/systemd/system/ollama.service,在[Service]段添加:Environment="OLLAMA_HOST=0.0.0.0:11434"Environment="OLLAMA_ORIGINS=*" Environment="OLLAMA_MODELS=/home/ollama/.ollama/models"sudo systemctl daemon-reload && sudo systemctl restart ollamacurl http://<服务器IP>:11434。docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://<服务器IP>:11434 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:maindocker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main四 原生Transformers推理与性能优化
pip install torch==2.1.2+cu118 transformers==4.40.0 accelerate modelscopesnapshot_download('LLM-Research/Meta-Llama-3-8B-Instruct', cache_dir='/root/autodl-tmp')(模型体量约15GB)。from transformers import AutoTokenizer, AutoModelForCausalLM; import torchtok = AutoTokenizer.from_pretrained(model_path); model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", torch_dtype=torch.bfloat16)out = model.generate(**inputs, max_new_tokens=256); print(tok.decode(out[0], skip_special_tokens=True))load_in_4bit=True, device_map="auto"五 常见问题与排障
netstat -tulpn | grep 11434 或 lsof -i :11434sudo systemctl restart ollama。OLLAMA_HOST=0.0.0.0:11434已配置、服务已重启、云服务器安全组/本机防火墙已放行11434端口;外网可用curl验证。max_batch_size、使用梯度累积/梯度检查点、启用4-bit量化,或改用更小模型(如从70B降到8B)。journalctl -u ollama -f,根据报错调整环境变量或资源分配。