DeepSeek R1训练时的超参数调优可参考以下方法:
- 温度参数:取值0-1,控制输出随机性。低温(0.2-0.5)适合事实性问题,保证准确性;高温(0.7-1.0)适合创造性任务,激发创意,中文场景推荐0.6-0.7。
- top-p参数:核采样概率阈值,取值0-1。较低值(如0.7-0.8)可使输出更确定性,较高值(0.9-1.0)能保留更多有效关键词,提升多样性,通用场景可设为0.95。
- 最大生成长度:根据任务需求设置,单位为token(1token≈1.5中文字)。短文本(如短信)可设为128-256,长文本(如小说)可设为1024,需注意过长会影响推理速度。
- 学习率:一般采用2e-5,可结合课程学习策略动态调整,如先以较高学习率快速收敛,再降低学习率微调。
- batch_size:根据硬件资源调整,较大的batch_size可提高训练效率,但需注意显存占用,推荐32-128。
- 优化器:推荐使用AdamW,设置合适的权重衰减(如0.01)防止过拟合。
- 混合精度训练:采用BF16+FP32混合精度策略,可降低内存占用,提升训练速度。
调优时建议采用“小步快跑”策略,先固定部分参数,逐步调整其他参数,同时结合实际任务需求和硬件资源进行优化。