Ubuntu安装OpenELM步骤 - AI技术

Ubuntu安装与运行 OpenELM 步骤
一环境准备

建议使用 Ubuntu 22.04/20.04，Python 3.8+，并准备支持 CUDA 的 NVIDIA GPU（推荐 CUDA 11.6+）。若使用 CPU 也可运行，但速度较慢。
创建虚拟环境（推荐）：conda create -n openelm python=3.10 -y && conda activate openelm
安装 PyTorch（CUDA 12.1 示例）：pip install torch==2.1.1 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
安装推理依赖：pip install transformers==4.36.2 tokenizers==0.15.2 sentencepiece==0.2.0 accelerate==0.25.0
说明：OpenELM 为 Apple 开源的高效语言模型家族，3B 级别模型在 GPU 上推理体验更佳。

二获取模型权重

方式 A（Hugging Face，需令牌）：

1) 在 Hugging Face 获取访问令牌（https://huggingface.co/settings/tokens，勾选 read 权限）。
2) 安装 Git LFS：curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash && sudo apt-get install git-lfs && git lfs install
3) 克隆模型：git clone https://huggingface.co/apple/OpenELM-3B-Instruct

方式 B（国内镜像，免令牌）：git clone https://gitcode.com/mirrors/apple/OpenELM-3B-Instruct
校验权重文件：ls -lh | grep "model-.*.safetensors"，应看到两个分片，例如：

-rw-r--r-- 1 user user 4.2G model-00001-of-00002.safetensors
-rw-r--r-- 1 user user 1.8G model-00002-of-00002.safetensors
三快速验证与命令行推理

准备推理脚本 generate_openelm.py（示例）：

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_name = "apple/OpenELM-3B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
device_map="auto"
)
prompt = "Once upon a time there was"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=64, temperature=0.7, top_p=0.9, do_sample=True)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

运行验证：python generate_openelm.py
说明：首次运行会自动下载模型配置与分词器；如使用镜像或本地权重，请确保脚本/model 路径正确。

四 Docker GPU 部署（可选）

启动容器（映射当前目录与端口 7860）：

docker run -it --gpus all \
-v $(pwd):/workspace \
-p 7860:7860 \
--name openelm-deploy \
nvidia/cuda:12.1.1-cudnn8-runtime-ubuntu22.04 /bin/bash

容器内创建虚拟环境并安装依赖（见第二节），随后在容器内运行推理脚本或启动 Web 服务。

五常见问题与优化

显存不足：将模型加载为 float16 并使用 device_map="auto"；必要时启用量化（如 bitsandbytes）或减小 max_new_tokens。
国内下载慢：优先使用 GitCode 镜像或提前下载好权重到本地路径。
生成效果调参：常用参数包括 max_new_tokens、temperature、top_p、top_k、repetition_penalty；可参考示例脚本中的配置。
硬件建议：3B 模型在 ≥6GB 显存 的 GPU 上体验更佳；CPU 推理需 ≥16GB 内存 更稳。