DeepSeekR1是DeepSeek系列模型之一,以下是对DeepSeekR1显存兼容性的探讨:
显存优化方案
- 不同显卡的显存容量推荐参数组合:
- A800:80GB,ngl 99,n 4096
- RTX 4090:24GB,ngl 40,n 2048
- V100:32GB,ngl 60,n 3072
显存兼容性技术细节
- KTransformers框架优化:
- 异构计算划分策略:仅将非Shared部分的稀疏MoE矩阵放在CPU/DRAM上,并使用llamafile提供的高速算子处理,剩余稠密部分放在GPU上使用Marlin算子处理。
- 4bit量化:GPU上的参数只需要24GB的显存环境,这样的消耗只需要一张4090+200G内存就能满足。
通过上述优化方案和框架技术细节,DeepSeekR1能够在不同显存的显卡上高效运行,满足用户在不同硬件环境下的需求。