更新时间:2025-12-03
状态:已支持(兼容 OpenAI)
介绍
Interleaved Thinking 是一种先进的推理框架,使模型能够在每次调用工具前后进行显式的思考和决策。具备 Interleaved Thinking 能力的模型可以:- 针对当前环境和工具的输出进行反思
- 基于最新的推理结果决定下一步行动
- 在多次工具调用过程中持续保持连贯的推理链路
- 通过
reasoning_details或reasoning_content字段透明展示多步推理过程,便于跟踪和审查
重要概念
交替推理
传统方法先进行一次推理再调用工具,而交替推理则采用如下流程:推理详情(reasoning_details)
对于部分模型,模型思考内容会以单独结构体的形式返回:
对话记忆
为保持推理链路的一致性,必须在后续请求中完整携带模型的全部响应,包括reasoning_details、tool_calls 以及 content 字段。如果未能持续传递这些信息,可能会导致:
- 工具调用不正确
- 推理上下文丢失
- 工具调用递归或重复
- 可靠性下降
API 行为
请求格式
用户侧无需做任何更改。Interleaved Thinking 支持标准的 OpenAI 兼容 Chat Completions API。响应格式
模型响应中可能包含以下字段:reasoning_content: 原始思考内容reasoning_details: 结构化推理片段,该字段为可选项tool_calls: 工具调用计划content: 自然语言输出
示例请求(MiniMax-M2)
非流式响应示例
流式响应示例
接入说明
支持 Interleaved Thinking 的模型
所有通过 OpenAI 兼容 API 暴露 reasoning_details 的模型,包括:- MiniMax-M2
- (即将上线)Reasoning 系列
- 其他支持推理功能的合作模型
计费规则
按照模型的计费规定,reasoning token 会计入费用。启用 reasoning_details 会增加 token 消耗。
错误处理
可能遇到的问题包括:- 工具参数缺失
- 工具调用递归或重复
- 推理阶段假设错误
最佳实践
始终在下一个请求中包含完整的模型消息 请携带:contenttool_callsreasoning_details
- 实时监控推理过程
- 及早发现工具规划错误
- 更快地给用户反馈
- 参数校验器
- 执行沙箱
- 最大递归深度保护
总结
Interleaved Thinking 显著提升了多步推理与工具调用的可靠性:- 透明且可检查的逐步推理
- 在工具调用之间进行自适应规划
- 在长工作流中更强的上下文保持能力
- 完全兼容 OpenAI 风格的对话补全 API