一、准备工作
sudo apt update && sudo apt install python3 python3-pip
);python3 -m venv llama3_env
→ source llama3_env/bin/activate
);pip install torch torchvision torchaudio transformers
)。二、安装Ollama(简化部署工具)
Ollama是开源的本地LLM部署框架,支持一键下载、运行模型,无需复杂配置。
curl -fsSL https://ollama.com/install.sh | sh
;ollama --version
,若返回版本号则说明安装成功。三、下载与运行Llama3模型
ollama run llama3
,Ollama会自动下载8B参数的Llama3模型(约5GB)到默认目录/usr/share/ollama/.ollama/models/
;ollama run llama3:70b
。若需自定义模型路径,可通过Meta官方渠道申请下载链接(填写信息后获取邮件链接),然后执行bash download.sh
并输入链接下载模型。
四、模型加载与推理
from transformers import AutoModelForCausalLM, AutoTokenizer
# 模型路径(Ollama默认路径或手动下载路径)
model_path = "/usr/share/ollama/.ollama/models/llama3"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path)
# 测试推理
input_text = "你好,请介绍一下Llama3!"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
temperature
(温度,控制随机性)、top_p
(核采样,控制多样性)等参数优化输出:outputs = model.generate(
**inputs,
max_length=100,
temperature=0.7,
top_p=0.9,
num_return_sequences=3 # 生成3个不同结果
)
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)
inputs = inputs.to(device)
处理多个输入时,使用padding
和truncation
统一输入长度,提高效率:
batch_texts = ["你好", "Llama3性能评测", "大模型应用场景"]
batch_inputs = tokenizer(batch_texts, return_tensors="pt", padding=True, truncation=True)
batch_inputs = batch_inputs.to(device)
outputs = model.generate(**batch_inputs, max_length=50)
for i, output in enumerate(outputs):
print(f"输入{i+1}: {batch_texts[i]}")
print(f"输出{i+1}: {tokenizer.decode(output, skip_special_tokens=True)}\n")
五、常见问题解决
ollama run llama3
;若使用手动下载,确认链接有效性;docker run
命令中的端口号(如-p 3001:8080
);pip freeze
查看并卸载冲突包。六、扩展:使用Web界面(可选)
通过Docker部署Open WebUI,获得图形化交互界面:
docker pull ghcr.io/open-webui/open-webui:main
;docker run -d -p 3000:8080 --name open-webui --restart always ghcr.io/open-webui/open-webui:main
;http://localhost:3000
,注册后选择“Llama3”模型即可交互。