Linux下Llama 3配置技巧
一 环境准备与版本匹配
uname -r、nvidia-smi、nvcc --version。python -c "import torch; print(torch.__version__, torch.cuda.is_available())"。pip install -r requirements.txt;如遇分词器冲突,可固定版本如 tiktoken==0.4.0。二 两种常用部署方式与关键配置
pip install torch==2.1.2+cu118 transformers==4.40.0 accelerate。snapshot_download('LLM-Research/Meta-Llama-3-8B-Instruct', cache_dir='...'))。max_length、temperature、top_p。curl -fsSL https://ollama.com/install.sh | sh,默认 API 在 127.0.0.1:11434。ollama pull llama3、ollama run llama3、ollama list;支持通用与对话两种 API。/etc/systemd/system/ollama.service,设置 OLLAMA_HOST=0.0.0.0(远程访问)、OLLAMA_ORIGINS=*(跨域)、OLLAMA_MODELS=/your/models/path(模型存放路径);随后 systemctl daemon-reload && systemctl enable --now ollama。三 性能优化与显存控制
max_batch_size;多卡可用 tensor_model_parallel_size 或 torchrun --nproc_per_node=N;超大模型(如 70B)建议 8卡 并行。torch.backends.cuda.matmul.allow_tf32 = True、torch.backends.cudnn.allow_tf32 = True。load_in_4bit=True, device_map="auto";LLM(model=..., sampling_params=...)。max_seq_len(如 2048/4096/8192),过长会显著增加显存与时延。四 常见问题与快速排查
batch_size、启用 4-bit、或使用 vLLM;必要时改为多卡并行。tiktoken 报错,固定 0.4.0。OLLAMA_HOST=0.0.0.0 已设置且防火墙放行 11434;跨域需 OLLAMA_ORIGINS=*。五 服务化与前端集成
{"model":"llama3","prompt":"...","stream":false}{"model":"llama3","messages":[{"role":"system","content":"..."},{"role":"user","content":"..."}],"stream":false}