错误现象:启动Llama 3时提示“out of memory”(内存不足),或模型加载后GPU显存占用超过可用容量(如未量化模型需22GB+显存)。
解决方法:
--cache-max-entry-count控制KV缓存大小(如设置为0.01,降低缓存占用,避免显存波动);autocast上下文管理器启用混合精度训练/推理,减少显存消耗(示例代码:from torch.cuda.amp import autocast; with autocast(): outputs = model(inputs))。错误现象:运行部署命令时报错“ModuleNotFoundError”(缺少依赖库)或“版本冲突”(如PyTorch版本不兼容)。
解决方法:
conda create -n llama3_env python=3.10,激活环境后重新安装依赖;pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 --extra-index-url https://download.pytorch.org/whl/cu118);conda remove --name llama3_env --all彻底删除并重建。错误现象:模型加载失败(如“Failed to load model weights”),或推理时出现“Unexpected key in state_dict”错误。
解决方法:
md5sum -c checklist.chk(模型目录下的校验文件)检查文件哈希值,若有错误则重新下载;wget --continue或aria2c -x 16 -s 16(多线程加速)重新下载模型文件,确保下载过程不被中断;chmod -R 755 /path/to/model)。错误现象:启动Ollama服务时报错“Error: listen tcp 127.0.0.1:11434: bind: address already in use”(端口被占用)。
解决方法:
netstat -tulpn | grep 11434,查看是否有进程占用该端口;kill -9 (PID为占用进程的ID)终止该进程;~/.ollama/config.json)或启动命令(如ollama serve --port 11435)更换端口。错误现象:Docker运行Ollama容器时报错“Cannot connect to the Docker daemon”(无法连接Docker守护进程)或“Image not found”(镜像不存在)。
解决方法:
sudo systemctl start docker(Ubuntu/Debian)或sudo systemctl start docker(CentOS)启动Docker;docker pull ghcr.io/open-webui/open-webui:main),避免使用第三方修改过的镜像;docker run -d -p 3000:8080 --name open-webui --restart always --gpus all -m 8g ghcr.io/open-webui/open-webui:main(分配8GB内存)限制容器资源。错误现象:运行Ollama命令时报错“Permission denied”(权限不足),或无法访问模型目录。
解决方法:
sudo ollama run llama3),但不推荐长期使用(可能存在安全风险);sudo chown -R $USER:$USER /usr/share/ollama/.ollama/models/);usermod -aG docker $USER将用户加入docker组(需重启生效),避免频繁使用sudo。