Ubuntu安装OpenELM步骤

AI技术
小华
2025-11-24

Ubuntu安装与运行 OpenELM 步骤
一 环境准备

  • 建议使用 Ubuntu 22.04/20.04,Python 3.8+,并准备支持 CUDA 的 NVIDIA GPU(推荐 CUDA 11.6+)。若使用 CPU 也可运行,但速度较慢。
  • 创建虚拟环境(推荐):conda create -n openelm python=3.10 -y && conda activate openelm
  • 安装 PyTorch(CUDA 12.1 示例):pip install torch==2.1.1 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
  • 安装推理依赖:pip install transformers==4.36.2 tokenizers==0.15.2 sentencepiece==0.2.0 accelerate==0.25.0
  • 说明:OpenELM 为 Apple 开源的高效语言模型家族,3B 级别模型在 GPU 上推理体验更佳。

二 获取模型权重

  • 方式 A(Hugging Face,需令牌):

1) 在 Hugging Face 获取访问令牌(https://huggingface.co/settings/tokens,勾选 read 权限)。
2) 安装 Git LFS:curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash && sudo apt-get install git-lfs && git lfs install
3) 克隆模型:git clone https://huggingface.co/apple/OpenELM-3B-Instruct

-rw-r--r-- 1 user user 4.2G model-00001-of-00002.safetensors
-rw-r--r-- 1 user user 1.8G model-00002-of-00002.safetensors
三 快速验证与命令行推理

  • 准备推理脚本 generate_openelm.py(示例):
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_name = "apple/OpenELM-3B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
device_map="auto"
)
prompt = "Once upon a time there was"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=64, temperature=0.7, top_p=0.9, do_sample=True)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
  • 运行验证:python generate_openelm.py
  • 说明:首次运行会自动下载模型配置与分词器;如使用镜像或本地权重,请确保脚本/model 路径正确。

四 Docker GPU 部署(可选)

  • 启动容器(映射当前目录与端口 7860):

docker run -it --gpus all \
-v $(pwd):/workspace \
-p 7860:7860 \
--name openelm-deploy \
nvidia/cuda:12.1.1-cudnn8-runtime-ubuntu22.04 /bin/bash

  • 容器内创建虚拟环境并安装依赖(见第二节),随后在容器内运行推理脚本或启动 Web 服务。

五 常见问题与优化

  • 显存不足:将模型加载为 float16 并使用 device_map="auto";必要时启用量化(如 bitsandbytes)或减小 max_new_tokens。
  • 国内下载慢:优先使用 GitCode 镜像或提前下载好权重到本地路径。
  • 生成效果调参:常用参数包括 max_new_tokens、temperature、top_p、top_k、repetition_penalty;可参考示例脚本中的配置。
  • 硬件建议:3B 模型在 ≥6GB 显存 的 GPU 上体验更佳;CPU 推理需 ≥16GB 内存 更稳。
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序