Linux如何配置Llama3环境 - AI技术

Linux环境下配置Llama3的步骤

1. 系统要求确认

在配置Llama3前，需确保Linux系统满足以下基础要求：

操作系统：推荐使用Ubuntu 20.04及以上版本（稳定性高，对大模型支持好）；
硬件配置：至少16GB RAM（建议32GB及以上，大模型对内存消耗大）；至少50GB可用硬盘空间（用于存储模型文件）；若需加速推理，建议配备NVIDIA GPU（支持CUDA 11.0及以上版本）；
软件要求：Python 3.8及以上版本（兼容Llama3的依赖库）。

2. 创建Python虚拟环境（隔离依赖）

为避免与其他项目依赖冲突，建议使用虚拟环境。推荐以下两种方式：

venv（Python内置）：

python3 -m venv llama3_env  # 创建名为llama3_env的虚拟环境
source llama3_env/bin/activate  # 激活虚拟环境（激活后终端提示符会显示环境名）

conda（Anaconda/Miniconda）：

conda create --name llama3 python=3.8.0  # 创建名为llama3的环境，指定Python版本
conda activate llama3  # 激活环境

激活后，后续所有操作均在虚拟环境中进行。

3. 安装系统依赖（可选但推荐）

若使用GPU加速，需安装NVIDIA驱动和CUDA Toolkit（确保版本符合要求，如CUDA 11.0+）。可通过以下命令快速安装：

# 更新软件包索引
sudo apt update && sudo apt upgrade -y
# 安装NVIDIA驱动（根据显卡型号选择对应版本，此处以通用驱动为例）
sudo apt install nvidia-driver-535 -y
# 安装CUDA Toolkit（以11.8为例）
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/7fa2af80.pub
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /"
sudo apt update
sudo apt install cuda-11-8 -y
# 添加CUDA到PATH（临时生效，可写入~/.bashrc永久生效）
export PATH=/usr/local/cuda-11.8/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

4. 安装Python依赖库

Llama3依赖torch（支持GPU加速）、transformers（模型加载与推理）等库，通过pip安装：

pip install --upgrade pip  # 升级pip至最新版本
pip install torch torchvision torchaudio transformers  # 安装核心依赖

若使用GPU，torch会自动安装对应CUDA版本的版本（如torch==2.0.1+cu118）。

5. 部署Llama3模型（两种常用方式）

方式一：使用Ollama（快速本地部署，推荐新手）

Ollama是专为本地运行大模型设计的工具，支持一键下载和启动Llama3：

# 1. 下载并安装Ollama（Linux版本）
curl -fsSL https://ollama.com/install.sh | sh
# 2. 将Ollama添加到PATH（方便全局调用）
sudo usermod -aG docker $USER  # 若使用Docker（Ollama依赖Docker）
newgrp docker  # 刷新用户组
# 3. 启动Ollama服务（默认后台运行）
ollama serve &
# 4. 运行Llama3模型（8B参数版，适合个人使用）
ollama run llama3
# 若需更大模型（如70B参数），可指定版本：
ollama run llama3:70b

Ollama会自动下载模型文件（默认存储在~/.ollama/models目录），并启动模型服务。启动后，可通过ollama list查看已安装模型。

方式二：手动部署（Hugging Face Transformers库）

若需自定义模型路径或进行二次开发，可使用Transformers库手动加载：

# 1. 克隆Llama3官方仓库（获取模型代码）
git clone https://github.com/meta-llama/llama3.git
cd llama3
# 2. 安装项目依赖（项目根目录下执行）
pip install -e .  # 可编辑模式安装，修改代码无需重新安装
# 3. 下载模型权重（需从Meta官网申请下载链接）
bash download.sh  # 运行下载脚本，输入Meta提供的下载链接
# 4. 编写推理脚本（示例：example_chat_completion.py）
# 参考Llama3官方文档中的chat.py脚本，或使用以下简化代码：
from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "./Meta-Llama-3-8B-Instruct"  # 模型下载后的路径
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path)
input_text = "你好，请问今天天气如何？"
inputs = tokenizer(input_text, return_tensors="pt")
output = model.generate(**inputs, max_length=100, temperature=0.7)
print(tokenizer.decode(output[0], skip_special_tokens=True))

运行脚本：python example_chat_completion.py。

6. 验证部署（测试推理功能）

无论使用哪种部署方式，均可通过简单输入验证模型是否正常工作：

Ollama方式：启动模型后，在终端输入ollama chat llama3，即可进入对话模式；
手动方式：运行上述推理脚本，输入中文或英文问题，查看模型生成的回答。

注意事项

若使用GPU，需确保torch安装了CUDA版本（可通过torch.cuda.is_available()验证）；
手动部署时，模型下载可能需要较长时间（8B模型约10GB，70B模型约200GB）；
Ollama方式更轻量，适合快速测试；手动方式更适合需要自定义的场景。