在配置Llama3前,需确保Linux系统满足以下基础要求:
为避免与其他项目依赖冲突,建议使用虚拟环境。推荐以下两种方式:
python3 -m venv llama3_env # 创建名为llama3_env的虚拟环境
source llama3_env/bin/activate # 激活虚拟环境(激活后终端提示符会显示环境名)
conda create --name llama3 python=3.8.0 # 创建名为llama3的环境,指定Python版本
conda activate llama3 # 激活环境
激活后,后续所有操作均在虚拟环境中进行。
若使用GPU加速,需安装NVIDIA驱动和CUDA Toolkit(确保版本符合要求,如CUDA 11.0+)。可通过以下命令快速安装:
# 更新软件包索引
sudo apt update && sudo apt upgrade -y
# 安装NVIDIA驱动(根据显卡型号选择对应版本,此处以通用驱动为例)
sudo apt install nvidia-driver-535 -y
# 安装CUDA Toolkit(以11.8为例)
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/7fa2af80.pub
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /"
sudo apt update
sudo apt install cuda-11-8 -y
# 添加CUDA到PATH(临时生效,可写入~/.bashrc永久生效)
export PATH=/usr/local/cuda-11.8/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
Llama3依赖torch
(支持GPU加速)、transformers
(模型加载与推理)等库,通过pip安装:
pip install --upgrade pip # 升级pip至最新版本
pip install torch torchvision torchaudio transformers # 安装核心依赖
若使用GPU,torch
会自动安装对应CUDA版本的版本(如torch==2.0.1+cu118
)。
Ollama是专为本地运行大模型设计的工具,支持一键下载和启动Llama3:
# 1. 下载并安装Ollama(Linux版本)
curl -fsSL https://ollama.com/install.sh | sh
# 2. 将Ollama添加到PATH(方便全局调用)
sudo usermod -aG docker $USER # 若使用Docker(Ollama依赖Docker)
newgrp docker # 刷新用户组
# 3. 启动Ollama服务(默认后台运行)
ollama serve &
# 4. 运行Llama3模型(8B参数版,适合个人使用)
ollama run llama3
# 若需更大模型(如70B参数),可指定版本:
ollama run llama3:70b
Ollama会自动下载模型文件(默认存储在~/.ollama/models
目录),并启动模型服务。启动后,可通过ollama list
查看已安装模型。
若需自定义模型路径或进行二次开发,可使用Transformers库手动加载:
# 1. 克隆Llama3官方仓库(获取模型代码)
git clone https://github.com/meta-llama/llama3.git
cd llama3
# 2. 安装项目依赖(项目根目录下执行)
pip install -e . # 可编辑模式安装,修改代码无需重新安装
# 3. 下载模型权重(需从Meta官网申请下载链接)
bash download.sh # 运行下载脚本,输入Meta提供的下载链接
# 4. 编写推理脚本(示例:example_chat_completion.py)
# 参考Llama3官方文档中的chat.py脚本,或使用以下简化代码:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "./Meta-Llama-3-8B-Instruct" # 模型下载后的路径
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path)
input_text = "你好,请问今天天气如何?"
inputs = tokenizer(input_text, return_tensors="pt")
output = model.generate(**inputs, max_length=100, temperature=0.7)
print(tokenizer.decode(output[0], skip_special_tokens=True))
运行脚本:python example_chat_completion.py
。
无论使用哪种部署方式,均可通过简单输入验证模型是否正常工作:
ollama chat llama3
,即可进入对话模式;torch
安装了CUDA版本(可通过torch.cuda.is_available()
验证);