Linux系统怎样安装Llama3 - AI技术

Linux系统安装Llama3的详细步骤

1. 准备工作

在安装Llama3前，需确保Linux系统满足以下最低要求：

操作系统：推荐Ubuntu 20.04及以上版本（稳定性高，兼容性好）；
硬件配置：
至少16GB RAM（建议32GB及以上，以支持流畅推理）；
至少50GB可用硬盘空间（用于存储模型文件）；
NVIDIA GPU（显存≥8GB，支持CUDA 11.0及以上版本，可显著加速推理；若无GPU，也可使用CPU运行，但速度较慢）；
软件依赖：Python 3.8及以上版本、CUDA Toolkit（GPU用户）、Git（用于克隆代码仓库）。

2. 安装基础依赖

2.1 更新系统并安装Python

sudo apt update && sudo apt upgrade -y  # 更新系统
sudo apt install python3 python3-pip -y  # 安装Python3及pip

2.2 创建并激活虚拟环境（推荐）

虚拟环境可避免依赖冲突，建议使用：

python3 -m venv llama3_env  # 创建名为"llama3_env"的虚拟环境
source llama3_env/bin/activate  # 激活虚拟环境（激活后命令行前会显示"(llama3_env)"）

2.3 安装CUDA Toolkit（GPU用户）

若使用NVIDIA GPU，需安装对应版本的CUDA Toolkit（以CUDA 11.8为例）：

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/7fa2af80.pub
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /"
sudo apt update
sudo apt install cuda-11-8 -y  # 安装CUDA 11.8
echo 'export PATH=/usr/local/cuda-11.8/bin:$PATH' >> ~/.bashrc  # 添加CUDA到PATH
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc  # 生效环境变量

2.4 安装PyTorch（GPU用户）

根据CUDA版本选择合适的PyTorch安装命令（以CUDA 11.8为例）：

pip install torch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia  # 安装支持CUDA的PyTorch

若使用CPU，可简化为：

pip install torch torchvision torchaudio  # 仅安装CPU版本PyTorch

3. 安装Llama3（两种方式）

Llama3的安装主要分为命令行工具（Ollama）和手动部署（代码库）两种方式，前者更适合快速启动，后者更适合自定义需求。

3.1 方式一：使用Ollama命令行工具（推荐）

Ollama是开源的LLM管理工具，支持一键下载、运行和管理Llama3模型，无需复杂配置。

3.1.1 下载并安装Ollama

curl -fsSL https://ollama.com/install.sh | sh  # 下载并运行Ollama安装脚本

安装完成后，将Ollama添加到系统PATH（若未自动添加）：

echo 'export PATH=$PATH:/usr/local/bin' >> ~/.bashrc  # 根据实际安装路径调整
source ~/.bashrc

3.1.2 运行Llama3模型

ollama run llama3  # 默认下载8B参数模型（适合个人使用）

若需要更大规模的70B参数模型（性能更强，但需更多资源），可运行：

ollama run llama3:70b

Ollama会自动下载模型文件（默认存储在~/.ollama/models/目录），并启动模型服务。

3.1.3 验证安装

ollama list  # 查看已安装的模型列表（应包含"llama3"）
ollama --version  # 查看Ollama版本（确认安装成功）

3.2 方式二：手动部署（通过代码库）

若需自定义模型路径或集成到现有项目中，可通过Meta官方代码库手动部署。

3.2.1 克隆Llama3代码库

git clone https://github.com/meta-llama/llama3.git  # 克隆Llama3官方仓库
cd llama3  # 进入仓库目录

3.2.2 安装项目依赖

pip install -e .  # 以可编辑模式安装项目依赖（如llama.cpp等）

3.2.3 下载模型权重

Llama3模型权重需从Meta官方申请（需填写个人信息，审核较快）：

访问Meta Llama3下载页面：https://llama.meta.com/llama-downloads/；
填写姓名、邮箱、使用场景等信息，提交后Meta会将下载链接发送至邮箱；
下载完成后，将模型文件（如llama-3-8b.ggmlv3.q4_0.bin）放置在llama3/models/目录下。

3.2.4 运行模型

使用项目提供的示例脚本运行模型（以8B模型为例）：

python3 example_chat_completion.py --ckpt_dir models/llama-3-8b/ --tokenizer_path models/llama-3-8b/tokenizer.model

运行后，终端会进入对话模式，输入问题即可获取模型回复。

4. 模型推理示例

无论使用哪种安装方式，均可通过Python代码调用Llama3进行推理（以Ollama安装的8B模型为例）：

from transformers import AutoModelForCausalLM, AutoTokenizer
# 设置模型路径（Ollama默认路径为~/.ollama/models/llama3）
model_path = "~/.ollama/models/llama3"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path)
# 输入文本
input_text = "你好，请介绍一下你自己！"
inputs = tokenizer(input_text, return_tensors="pt")
# 生成回复（设置温度、最大长度等参数）
output = model.generate(**inputs, max_length=100, temperature=0.7, top_p=0.9)
# 解码并打印回复
print("模型回复：", tokenizer.decode(output[0], skip_special_tokens=True))

5. 常见问题解决

下载失败：检查网络连接，重新运行ollama run llama3或重新申请下载链接；
显存不足：选择更小参数的模型（如8B），或关闭其他占用显存的程序；
端口冲突：若使用Docker部署，修改docker run命令中的端口号（如-p 3001:8080）；
依赖冲突：确保虚拟环境激活，或使用pip install --upgrade升级冲突的库。

通过以上步骤，即可在Linux系统上成功安装并运行Llama3模型。根据需求选择合适的方式（Ollama适合快速启动，手动部署适合自定义），即可体验Llama3的强大功能。