deepseek-r1调用时,中间的思考以及答案都可以输出,可以最后却异常。2025-11-14 15:27:52,827 - MainThread - src.session.session_service - session_service.py 131 - ERROR - {'session_id': 'S99d663183d29408991896cb37b913f64', 'agent': 'output', 'id': 'run--17759891-b8a0-4def-b41b-91122e1fde97', 'role': 'assistant', 'content': 'xi', 'type': 'text', 'finish_reason': 'length'}
DeepSeek-R1 的服务端在流式输出时触发了「生成长度限制」,模型被强行截断,于是最后一段内容不完整,SDK/你的代码在收到非正常结束后又继续处理,导致最终抛异常。
建议:R1 至少 4096~8192 才不会被思考部分撑爆。
✔ 设置:
max_tokens = 8192
✔ 系统指令抑制思考过程(如你不需要):
只输出最终答案,不要输出推理过程。
✔ 代码层支持 finish_reason="length",不要抛异常