智能体不再用人话协作,成本结构可能被改写
这篇论文真正有信号价值的地方,不是又做了一个多智能体解题流程,而是把智能体之间的通信层从自然语言挪到了潜在状态。传统 agent pipeline 里,一个模型先写计划,另一个模型批判,第三个模型求解,每一轮都要生成完整文本、消耗 token、再被下一个模型重新编码。新方法直接传递未解码的内部数值表示,也就是 cross-agent latent state transfer,试图绕过这层昂贵、低效、还容易失真的语言接口。 结果足够让做 LLM 应用的人认真看一眼。在竞赛级数学题上,三个小于 10B 参数的免费模型准确率从 73% 提到 86%,token 使用量下降 75%,训练成本据称只有 4 美元。更关键的是,论文做了控制实验,同一个大模型教师给其他架构和该架构生成训练数据,新架构仍然胜出,削弱了「只是蒸馏做得好」的解释。这里的产品含义很直接,小模型不是只能靠更长上下文或更多调用补短板,通信协议本身也可能成为性能和成本杠杆。 这会冲击当前 agent 框架的默认假设。LangChain、AutoGen、CrewAI 这类编排方式大多仍把文本消息当作协作边界,便于调试、审计和人类介入,但也把大量预算花在机器写给机器看的句子上。潜在状态传递如果能工程化,可能催生一种更接近模型内部总线的 agent runtime,用更少 token 完成多轮推理、审查和修正,尤其适合数学、代码分析、规划这类中间过程不必完全可读的任务。 风险同样清楚。实验还停在小模型和研究环境,最佳 latent thought length 大约 80 步,扩展到更大模型、开放任务、长期记忆和工具调用后未必线性收益。更大的问题是可观测性,文本消息虽然低效,却给开发者留下调试轨迹;潜在状态协作可能更便宜也更黑箱。接下来要看的不是演示视频有多惊艳,而是代码和模型开源后,能否被接进真实 agent 工作流,并在成本、可解释性和失败恢复之间给出可操作的折中。