数媒在线课堂 其他考量因素

 58    |      2025-09-11 23:31

2.1 验证器机制

如我们所见,这些技术的效果很大程度上取决于验证器的质量及其验证能力。启发式 / 自动验证器(Heuristic/automatic verifiers)虽有效但天然具有领域局限性(例如,编程题目中的测试用例)。学习型验证器(Learned verifiers)虽可行,但需要特定领域的高质量训练数据 ------ 可参考 OpenAI 这篇早期的论文 [21],他们训练了用于数学问题的学习型验证器。直接使用 LLM 用作验证器虽已取得显著进展,但该方法的可行性仍存在一定局限。基于过程的验证器(Process based verifiers)非常重要,但其实现难度远高于基于结果的验证器(outcome based verifiers)。

MuZero [22] 为此领域的发展提供了一个重要参照 ------ 这个无模型的强化学习系统能掌握多种复杂游戏并达到顶尖水平。"无模型(Model-free)" 意味着其强化学习算法中并未编码任何特定游戏规则。

这种领域无关的验证器设计似乎对模型在推理能力上实现普遍提升非常重要。当然,关键问题在于,相较于围棋、国际象棋、将棋和 Atari 游戏等奖励函数明确的领域,如何在奖励机制更模糊的领域实现类似效果仍待探索。

2.2 泛化能力存疑

这篇精彩的博文深入探讨了将强化学习应用于推理领域的挑战 [23],特别是在 OpenAI 的 o1 模型这个具体背景下来讨论这个问题。o1 采用强化学习技术,而强化学习在奖励信号清晰且频繁的领域效果最佳,但现实是大多数领域缺乏这种明确的奖励机制。

......

OpenAI 承认 o1 是在易于验证的领域进行训练的,但希望其推理能力能泛化到所有领域。这种跨领域的泛化能力能否实现,是一个价值万亿美元的问题。我先直截了当地说出我的观点:

⚠️ o1 风格的推理模型无法实现超越训练领域的有效泛化

从实际案例来看,当前多数测试时计算模型在特定问题领域(如数学、逻辑、计算机科学)表现突出,但在其他领域并未展现明显优势。许多体验过这类模型的研究者反馈,它们在传统生成任务上的表现反而明显下降。基于强化学习的推理技术能否有效泛化到验证难度更高的领域,仍是一个值得探索的开放性问题。

2.3 词元空间与隐空间中的推理

与上述所有方法形成有趣对照的是:词元空间究竟是否为模型推理的最优方式?现有研究开始探索让模型直接在隐空间 [24] 中推理 ------ 即在推理过程中将隐藏状态反馈给模型,而非解码后的词元。

从理论上讲,隐空间推理可能更具优势,因为隐藏状态(hidden state)代表了下一词元生成的概率分布,而词元本质上是该分布的 "采样样本"。相较于仅选择一个状态,在所有可能状态下进行推理更接近人类的推理模式,可能有提升效果。

这种方法的潜在缺陷是,此类模型不会向用户 "展示推理过程"。但考虑到 OpenAI 等公司已经开始隐藏推理步骤,这个缺点或许无关紧要。理论上仍可可视化词元输出而同时在隐空间推理,但这可能导致用户所见与模型实际推理过程出现偏差。

2.4 智能体推理机制

我特别关注这些技术如何映射到智能体领域。优化模型的多步骤复杂推理轨迹,与优化智能体的多步骤推理轨迹存在高度相似性 ------ 唯一区别在于智能体的子步骤被拆分为不同的模型调用,且通常涉及更多动态组件(如函数调用等)。

观察到许多领先的智能体创业公司(如 Cognition、Basis 等)都将这些理念融入其智能体设计。例如,多家智能体公司会采集智能体的运行轨迹,通过搜索技术 + 奖励模型进行回放来推演反事实推理路径(counterfactual reasoning paths),并将这些反事实轨迹(counterfactual trajectories)作为微调样本用于提升智能体系统性能。

对于需要 50-100+ 次链式 LLM 调用来在复杂工具环境中完成任务的智能体而言,这种方法至关重要 ------ 因为单次请求下智能体可执行的动作组合复杂度极高。

特别值得关注的是,相较于在模型层通用地解决多步推理问题,设计针对特定领域的搜索算法和过程奖励模型显然更具可行性。

这恰好印证了前文提及的那篇博客文章的观点:这些技术可能难以实现泛化。复杂推理的强化学习技术在模型提供商层面或许难以泛化,反而会成为垂直领域智能体创业公司的核心护城河 ------ 尤其是在需要高度复杂推理的领域(如会计、税务、金融、建筑等)。

预计未来将出现专门支持此类任务的开发工具(类似微调领域的 MosaicML 生态),帮助智能体创业公司更便捷地构建 "搜索技术 + 验证" 层,并为特定应用场景生成训练数据集。