一、环境准备
在Linux系统(推荐Ubuntu 20.04及以上版本)上部署Llama3前,需满足以下核心要求:
二、常用部署方法
Ollama是专为本地化运行大模型设计的开源工具,支持一键下载和启动Llama3,无需复杂配置。
下载Ollama安装脚本并执行(需联网):
curl -fsSL https://ollama.com/install.sh | sh安装完成后,将Ollama添加到系统PATH(如~/.bashrc或~/.zshrc):
echo 'export PATH=$PATH:/usr/local/bin' >> ~/.bashrc
source ~/.bashrc执行以下命令启动8B参数模型(默认路径为~/.ollama/models/):
ollama run llama3若需更大规模的70B模型(需更多显存),可指定版本:
ollama run llama3:70b运行ollama --version,若显示版本信息则说明安装成功。
若需深度定制模型(如修改模型结构、调整推理参数),可通过Transformers库手动加载。
创建虚拟环境并激活:
python3 -m venv llama3_env
source llama3_env/bin/activate安装PyTorch(需匹配CUDA版本,如CUDA 12.1)和Transformers:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install transformers从Meta官方渠道(需申请下载链接)或Hugging Face获取模型文件(如Meta-Llama-3-8B-Instruct),或使用ModelScope下载:
from modelscope import snapshot_download
model_dir = snapshot_download('LLM-Research/Meta-Llama-3-8B-Instruct')编写Python脚本加载模型和分词器,进行文本生成:
from transformers import AutoModelForCausalLM, AutoTokenizer
# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained(model_dir)
model = AutoModelForCausalLM.from_pretrained(model_dir)
# 输入文本并生成
input_text = "今天的天气怎么样?"
inputs = tokenizer(input_text, return_tensors="pt")
output = model.generate(**inputs, max_length=50)
print(tokenizer.decode(output[0], skip_special_tokens=True))Docker可避免依赖冲突,便于在不同环境中快速部署。
根据Linux发行版选择安装方式(如Ubuntu使用apt):
sudo apt update && sudo apt install -y docker.io
sudo systemctl start docker从Docker Hub获取Ollama镜像:
docker pull ghcr.io/open-webui/open-webui:main映射端口(如3000:8080)并启动容器:
docker run -d -p 3000:8080 --name open-webui --restart always ghcr.io/open-webui/open-webui:main浏览器打开http://localhost:3000,注册后选择“Llama 3”模型即可通过Web界面交互。
三、后续优化(可选)
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)
inputs = inputs.to(device)