DeepSeek R1参数设置最佳实践
一 核心采样与生成参数
二 推理行为控制与提示词模板
[file name]: {filename}
[file content begin]
{file_content}
[file content end]
{question}# 以下内容是基于用户发送的消息的搜索结果:
{search_results}
在我给你的搜索结果中,每个结果都是[webpage X begin]...[webpage X end]格式的,X代表每篇文章的数字索引。请在适当的情况下在句子末尾引用上下文。请按照引用编号[citation:X]的格式在答案中对应部分引用上下文。如果一句话源自多个上下文,请列出所有相关的引用编号,例如[citation:3][citation:5],切记不要将引用集中在最后返回引用编号,而是在答案对应部分列出。
在回答时,请注意以下几点:
- 今天是{cur_date}。
- 并非搜索结果的所有内容都与用户的问题密切相关,你需要结合问题,对搜索结果进行甄别、筛选。
- 对于列举类的问题(如列举所有航班信息),尽量将答案控制在10个要点以内,并告诉用户可以查看搜索来源、获得完整信息。优先提供信息完整、最相关的列举项;如非必要,不要主动告诉用户搜索结果未提供的内容。
- 对于客观类的问答,如果问题的答案非常简短,可以适当补充一到两句相关信息,以丰富内容。
- 除非要求,否则回答语言与用户提问语言保持一致。
# 用户消息为:
{question}三 本地与云端部署的关键参数
| 参数规模 | 典型用途 | 建议硬件 |
|---|---|---|
| 1.5B/7B/8B | 本地快速试用、轻量任务 | 16–32GB 内存;7B/8B建议8GB+ 显存(如 RTX 3070/4060) |
| 14B/32B | 较强推理、企业内测 | 32–64GB 内存;16–24GB+ 显存(如 RTX 4090/A5000) |
| 70B | 高精度推理 | 128GB+ 内存;多卡(如 2×A100 80GB 或 4×RTX 4090) |
| 671B(R1/R1‑Zero) | 研究/满血版 | 多节点专业集群(如 8×A100/H100) |
ollama run deepseek-r1:7b(或 1.5B/32B 等);默认监听http://localhost:11434。export OLLAMA_HOST=0.0.0.0:11434 后启动服务,其他设备用主机 IP:11434 访问。vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \
--tensor-parallel-size 2 \
--max-model-len 32768 \
--enforce-eager \
--temperature 0.6 \
--trust-remote-code四 常见误区与修正