本地部署 Gemini 的性能概览
硬件与性能要点
不同硬件场景的典型表现
| 场景 | 可用硬件 | 预期性能与可行性 |
|---|---|---|
| 机器人端本地 VLA | 边缘计算设备(具体规格依设备而定) | 面向低延迟与离线执行,可完成如拉开拉链、折叠衣物等灵巧操作;官方强调本地运行与快速任务适应,适合时延敏感与断网工况。 |
| 工作站级多模态推理 | RTX 4090 24GB 等消费级 GPU | 在不进行全参数加载的前提下,借助分片/offload 等手段可运行轻量化或裁剪版多模态任务;纯本地全量推理大型 Gemini 不现实。参考同类大模型(如 Llama‑2‑70B)在 RTX 4090 上的速率约 28 tokens/s(batch=1),可作带宽/算力上限的量级参考(实际 Gemini 速度会因架构与优化而不同)。 |
| 数据中心级多卡部署 | A100 80GB / H100 80GB 等 | 通过 Tensor Parallel 与 NVLink 支撑大模型分片与高速互联;在长序列与高并发下,H100 凭借更高带宽与 FP8 低精度推理可获得更高吞吐与更低时延。 |
延迟与吞吐的量化参考
落地建议