在安装Llama3前,需确保Linux系统满足以下最低要求:
sudo apt update && sudo apt upgrade -y # 更新系统
sudo apt install python3 python3-pip -y # 安装Python3及pip
虚拟环境可避免依赖冲突,建议使用:
python3 -m venv llama3_env # 创建名为"llama3_env"的虚拟环境
source llama3_env/bin/activate # 激活虚拟环境(激活后命令行前会显示"(llama3_env)")
若使用NVIDIA GPU,需安装对应版本的CUDA Toolkit(以CUDA 11.8为例):
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/7fa2af80.pub
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /"
sudo apt update
sudo apt install cuda-11-8 -y # 安装CUDA 11.8
echo 'export PATH=/usr/local/cuda-11.8/bin:$PATH' >> ~/.bashrc # 添加CUDA到PATH
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc # 生效环境变量
根据CUDA版本选择合适的PyTorch安装命令(以CUDA 11.8为例):
pip install torch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia # 安装支持CUDA的PyTorch
若使用CPU,可简化为:
pip install torch torchvision torchaudio # 仅安装CPU版本PyTorch
Llama3的安装主要分为命令行工具(Ollama)和手动部署(代码库)两种方式,前者更适合快速启动,后者更适合自定义需求。
Ollama是开源的LLM管理工具,支持一键下载、运行和管理Llama3模型,无需复杂配置。
curl -fsSL https://ollama.com/install.sh | sh # 下载并运行Ollama安装脚本
安装完成后,将Ollama添加到系统PATH(若未自动添加):
echo 'export PATH=$PATH:/usr/local/bin' >> ~/.bashrc # 根据实际安装路径调整
source ~/.bashrc
ollama run llama3 # 默认下载8B参数模型(适合个人使用)
若需要更大规模的70B参数模型(性能更强,但需更多资源),可运行:
ollama run llama3:70b
Ollama会自动下载模型文件(默认存储在~/.ollama/models/
目录),并启动模型服务。
ollama list # 查看已安装的模型列表(应包含"llama3")
ollama --version # 查看Ollama版本(确认安装成功)
若需自定义模型路径或集成到现有项目中,可通过Meta官方代码库手动部署。
git clone https://github.com/meta-llama/llama3.git # 克隆Llama3官方仓库
cd llama3 # 进入仓库目录
pip install -e . # 以可编辑模式安装项目依赖(如llama.cpp等)
Llama3模型权重需从Meta官方申请(需填写个人信息,审核较快):
llama-3-8b.ggmlv3.q4_0.bin
)放置在llama3/models/
目录下。使用项目提供的示例脚本运行模型(以8B模型为例):
python3 example_chat_completion.py --ckpt_dir models/llama-3-8b/ --tokenizer_path models/llama-3-8b/tokenizer.model
运行后,终端会进入对话模式,输入问题即可获取模型回复。
无论使用哪种安装方式,均可通过Python代码调用Llama3进行推理(以Ollama安装的8B模型为例):
from transformers import AutoModelForCausalLM, AutoTokenizer
# 设置模型路径(Ollama默认路径为~/.ollama/models/llama3)
model_path = "~/.ollama/models/llama3"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path)
# 输入文本
input_text = "你好,请介绍一下你自己!"
inputs = tokenizer(input_text, return_tensors="pt")
# 生成回复(设置温度、最大长度等参数)
output = model.generate(**inputs, max_length=100, temperature=0.7, top_p=0.9)
# 解码并打印回复
print("模型回复:", tokenizer.decode(output[0], skip_special_tokens=True))
ollama run llama3
或重新申请下载链接;docker run
命令中的端口号(如-p 3001:8080
);pip install --upgrade
升级冲突的库。通过以上步骤,即可在Linux系统上成功安装并运行Llama3模型。根据需求选择合适的方式(Ollama适合快速启动,手动部署适合自定义),即可体验Llama3的强大功能。