Monday, Jan 1, 0001 | 1 minute read | Updated at Monday, Jan 1, 0001

@ 古月月仔

Reflective Context Learning 组会报告演讲稿

报告时长：8分钟论文：Reflective Context Learning: Studying the Optimization Primitives of Context Space

图片位置：illustrations/论文阅读-rcl/ 目录下

01-comparison-pathologies.png - 优化病理对比
02-framework-rcl-loop.png - RCL框架三步循环
Table 1 - RCL与梯度训练的对应关系
Table 2 - 五大优化原语汇总
Table 3 - Primitive的standalone值
Table 4 - Primitive在组合中的角色
Figure 2 - 训练动态分析
Figure 3 - 对初始化敏感性和模型分配

开场和背景介绍（约1分钟）

大家上午/下午好，今天我要分享的论文是《Reflective Context Learning: Studying the Optimization Primitives of Context Space》，这是一篇2026年4月发表的预印本论文，由Contextual AI团队完成。

在进入论文细节之前，我想先问大家一个问题：能否只修改Context而不修改模型参数，让Agent持续变强？

这里的"Context"不只是指prompt，而是指所有对Agent行为产生可解释影响的外部对象，包括结构化的行为规则手册、持久记忆、工具定义、检索索引等等。

论文的第二个核心问题是：Context Learning本质上也是一种优化问题，是否会遭遇传统参数优化的经典困境？比如高方差、信用分配困难、灾难性遗忘、更新震荡和局部最优等问题。

(请大家看图01-comparison-pathologies.png) 这里展示了参数空间与Context Learning面临相同问题的对比，高方差、信用分配困难、灾难性遗忘、更新震荡和局部最优这些问题在两者中一一对应。

作者的观点是：Context Learning与传统的参数空间优化在数学本质上同构，因此必然面临这些经典优化病理。这篇论文的贡献就是系统性地研究如何解决这些问题。

核心问题和动机（约1.5分钟）

论文的研究动机可以概括为两点：

第一点，现代语言模型是有效的、忠实的指令遵循者，这使得context-space优化变得实用——对Context的更新能够可靠地产生Agent行为的相应变化。

第二点，Context Learning与参数空间优化的病理一一对应。举个例子：

参数空间中单个失败样本的反馈可能引入噪声，对应Context Learning中高方差的问题
参数空间中的稀疏奖励问题，对应Context Learning中信用分配困难的挑战
顺序学习中的灾难性干扰，对应Context Learning中为了适应新任务而丢失已掌握知识的情况

这项工作的意义在于：

将分散的prompt engineering、in-context learning、tool design等方法统一到一个优化框架下
像研究SGD那样系统性研究context优化的"原语"（primitives）
Context优化具有天然的可解释性，因为修改的是自然语言规则而非不可读的参数

(请大家看Table 5) 这个表格总结了Context-Space Learning的演变，从早期的Reflexion、ProTeGi到最新的ACE、GEPA等，展示了reflection作为更新机制的引入和发展。

RCL框架介绍（约1.5分钟）

RCL的核心是一个Reflect-Update三步循环，每一步都与梯度训练的一个阶段功能对应。

(请大家看图02-framework-rcl-loop.png) 这个图展示了RCL框架的三步循环及其与梯度训练的对应关系。

第一步，Execute（执行）：Agent带着当前Context执行任务，得到轨迹和结果。这对应参数优化中的前向传播和损失计算。

第二步，Reflect（反思）：Reflector模块根据执行轨迹生成诊断信号，分析什么失败、为什么失败、以及Context的哪些组件应该被修订。这对应参数空间中的梯度计算。

第三步，Mutate（变异）：Mutator模块根据诊断信号和当前Context产生更新后的Context。这对应参数空间中的优化器步骤。

完整更新公式是：C_{t+1} = f(C_t, g(τ_t, r_t, C_t))

(请大家看Table 1) 这个表格详细展示了RCL框架与经典梯度训练概念的对应关系：参数对应Context artifact，前向传播对应执行轨迹，梯度对应反思诊断，优化器步骤对应Context更新，minibatch对应轨迹批次，momentum对应优化器历史，replay buffer对应失败重放。

这个基本循环是一个单样本、无状态、贪婪的步骤。当重复应用时，它会表现出与参数空间相同的病理——高方差更新、稀疏信用分配、灾难性遗忘和局部最优。

为了解决这些问题，论文引入了五个优化原语。

五大优化原语（约2.5分钟）

(请大家看Table 2) 这个表格总结了五大优化原语分别解决的优化病理、目标阶段以及先验工作。

第一个原语：Batching（批处理）

问题：单个轨迹产生单个诊断，其内容被该样本的特质主导，导致高方差。

解决方案：每次迭代采样B个任务，执行每个任务并对每个失败trace独立反思，产生多个诊断。Mutator识别跨诊断的重复模式并过滤单次异常，减少方差。

类比：这平行于SGD中的minibatching，通过对B个样本平均梯度来减少更新方差。

实验发现：当失败分布广泛时batching显示强增益，但当失败多样时可能适得其反。

第二个原语：Grouped Rollouts（分组轨迹）

问题：混淆归因，难以确定哪些决策点导致失败。

解决方案：每个任务执行G次，产生一个组。reflector接收同一任务的成功trace和失败trace，进行对比分析。

优势：提供对比信号，使reflector能够隔离负责outcome差异的决策点。实验显示这是最大单增益（+15.1在RewardBench2上）。

第三个原语：Improved Credit Assignment（改进信用分配）

问题：终端奖励是稀疏的，reflector需要将失败归因于整个轨迹和playbook。

解决方案：Dual-trace credit assignment。令Agent带标注的Context再执行一次，使决策过程可观测，启用条目级别的归因。

类比：这类似于多任务学习中的辅助损失，防止表示塌陷。

第四个原语：Failure Replay（失败重放）

问题：学习策略被遗忘，单个反思循环可能无法完全解决失败。

解决方案：维护一个失败重放缓冲区，每次迭代的采样分布结合缓冲区和原始数据集。任务连续多次通过后被移除，连续多次失败后被驱逐。

实验发现：移除failure replay在多个设置中产生最大下降，包括-18.0在BrowseComp+上。

第五个原语：Optimizer State（优化器状态）

问题：状态less更新引起的震荡。

解决方案：维护结构化的、滚动的优化状态文档，追踪修改了什么、哪些条目工作良好、开放假设等。

类比：这为context-space优化提供与参数空间中momentum类似的稳定化效果。

主要实验发现（约1分钟）

论文在三个benchmark上进行了评估：AppWorld（多步交互编码）、BrowseComp+（Web研究）和RewardBench2（响应排序）。

(请大家看Table 3和Table 4) 这两个表格展示了不同primitive的standalone值和组合后的表现。Table 3测量将单个primitive添加到ACE的marginal value，而Table 4测量一旦完整optimizer组装该primitive的角色。

主要发现一：诊断精度比执行量更重要。改进reflection signal的primitive给出最大每单位计算回报。

主要发现二：哪些primitive help取决于任务regime，且组合非additive。没有单primitive占主导，且完整优化器并非uniformly beat最佳individual one。

主要发现三：匹配模型capacity与每个role比最大化更重要。faithful mutator配强reflector outperforms reverse。

主要发现四：Context-space训练动态镜像parameter-space现象：震荡、momentum-stabilized收敛、稳定性与relearning的权衡。

(请大家看Figure 2) 这个图展示了训练过程中的动态变化，包括current TGC、recently solved rate以及active instability和stale regressions的分解。从图中可以看到，Optimizer State最早达到全覆盖，而Batching达到最高的peak TGC。

(请大家看Figure 3) 这个图展示了对初始化的敏感性和模型分配的影响。Figure 3a显示RCL从不同质量的seed playbook都能收敛到相似水平，而ACE从empty seed严重震荡。Figure 3b展示了不同reflector和mutator模型组合的性能，发现匹配模型capacity与role比单纯最大化能力更重要。

特别有趣的是，standalone value不能预测compositional role。一些primitive作为ACE的standalone添加时帮助，但从完整RCL移除它们时性能下降，表明它们在组合中的作用不可简单相加。

总结和启示（约0.5分钟）

总结一下，这篇论文的核心贡献是：

将多种分散的context-optimization方法重新cast为共享学习循环实例
系统研究经典优化primitives在controlled conditions下如何在context space组合
揭示了context-space optimization将受益于与经典ML带给weight更新相同的系统discipline

论文的启示是：随着模型增长更capable，通过context updates可学习的scope也会增长，使该学习过程的principled optimization变得越来越重要。

最后，论文提出了几个开放方向，包括adaptive primitive selection、second-order state tracking、以及extension to continual deployment。

我的分享就到这里，谢谢大家！