成熟的编程代理学会了升级自己的系统

- 编辑：足球滚球app下载 - 2025-05-07 10:36

成熟的编程代理学会了升级自己的系统

编程代理几乎是2025年最热门的主题之一。如果是学术或工业机构，他们正在寻找更好的实施道路。机器研究领域的历史经验表明，设计的手工解决方案最终将被博学的解决方案所取代。我们想知道一个问题：代理可以通过发现新的及时解决方案或工具而没有制动设计和实施来独立改变和改进自己的代码？ 2024年，文章“代理系统的自动设计”（Hu等人，2024年）引发了使用元代理商来优化代理的实现，该代理捕获了代理设计（ADAS）一步步骤的自动设计领域。但是，该研究并没有探索“改善Inrili”，因为有两个独立的代理：执行任务的目标药物和改善目标药物的元代理。布里斯托尔大学和巨大AI的研究人员认为，完整的方法Of今天将实现一种元代理方法，并提供合理的替代方法。 Paper Title: A Self-Infroving Coding Agent Paper Link: https://arxiv.org/pdf/25044.15228 Code Address: https://github.com/maximerobeyns/self_improving_ specifically, this research contributes to the following: Self -edit agents edit their own bases of code to improve themselves in terms of expense, speed and benchmark performance.有效地改善自己的实现。社区研究人员分享了实施自我支持的编码代理（SICA）的实施。 SICA在没有特定域域的标准python中实施。它为开发新的SICA系统提供了参考代理，还为LLM培训后寻求者提供了参考代理参考，以工具使用和其他代理活动。方法通用-IDIS SICA的主要运行环与Hu等人的ADAS环相似。（2024）。特别是机器人H SICA和ADAS保持了以前代理商的档案及其基准结果。第一步，SICA从档案中选择了最佳性能代理作为元代理，教导元代理查看档案，确定Planto改进并实施它。算法1显示了以下高级解决方案：请注意，与ADA不同，ADA具有固定的元元素，因此未从存档（ADAS）中选择元代理。存档是目标代理的目标文件，而不是元代理存档）。其次，ADAS和SICA都将在一组审核基准中检查新代理商，并存储审查结果。研究人员使用实用程序函数来指定“最佳”代理，其中包含一个良好代理的通常希望：标准基准性能得分p_score∈[0，1]，以秒为单位的P_Time wall时钟时间和价值p_cost的美元。主要的实用程序计算公式是研究人员将系数设置为W_SCORE = 0.5，W_COST = 0.25，W_TIME = 0.25。这是SA问题最糟糕的成本设置为10美元，并指定了300次的第二次，并且在超时后将取消代理商。为了对超时之前完成的工作给出一些奖励，最终实用程序的计算如下，并且时间惩罚为τ= 0.5：应该指出的是，由于没有重量更新，因此该数字标记仅用于选择下一个元代理和下一个差异的主要代理。首先，我们介绍初始编码代理，然后介绍基准运行轮廓，以及该框架自然允许我们创建自我参考任务（即改进编码代理）。代理的上下文结构很重要，它包含打开文件等的内容，而不仅仅是提示。在初始编码代理中，上下文结构显示在Picturen 3中。显示的第一件事是包含代理含义的系统提示，该系统列出了代理可用工具和所谓的子代理的含义。该系统鼓励系统EM信息，例如如何打破智能循环并返回呼叫过程。接下来是“核心提示”，该“核心提示”设置为聊天模板格式中的第一个用户信息，其中包含呼叫者指定的问题语句处理（呼叫者可以是呼叫代理或代理以调用子代理的用户）。在这里，研究人员还输入了开放代理的打开文件的视图和当前工作目录的表示。最后，LLM代理的其余上下文是运行助理信息。它包含一系列有关问题，工具调用及其响应，次级呼叫和反应的信息，以及异步管理系统中的任何通知或评论。 LLM上下文以这种方式铺设，允许添加新内容，从而维持KV缓存以降低延迟和工具调用之间的成本。对于主要代理，这里采用了一个简单的过程，其中将文件编辑内容添加到cus中tomary表格，并在以一定量积累后定期修复到陈旧的文件视图。代理商可以编写更复杂的KV缓存节省计划以降低成本。实验结果研究人员首先在基准设置上展示了相对长期任务的操作，并选择了经过验证的SWE基准，包括测试测试问题，代码导航以及快速有效的文件编辑。选择研究人员有50个问题可以解决。他们还从LiveCodebench中随机提取了50个问题，类似于竞争性编程，通常包含更多的理论推理。此外，研究人员还选择了两个“综合”基准任务的示例，这些示例是在代理代码底部完全定义和计划的。大多数代理使用十四行诗3.5（v2）（拟人化）来操作代理系统，只有“ infrerence代理”使用O3 mini。结果如图3所示，多样性水平的更详细的性能水平为如表1所示。结果数据显示了开发中的鼓励。在文件编辑基准测试中，代理最初具有覆盖文件的能力，这不仅慢，而且不是好的标记，而且可以根据差异和范围进行自我表达的“智能”编辑工具。在浏览该符号的任务中，代理在第9次复发中实现了一个简单的AST符号创始人（也许利用了基准主要基于Python的事实），这也取得了重大改进，这也反映在其他任务中。 LiveCodeBench的标记也没有改善，但不像其他一些基准那样清晰。研究人员还评估了自我参考剂系统在提高具有强大理解能力的领域的任务绩效方面的有效性。他们使用两个问题解决任务进行了另一个实验：图4显示了实验结果。这里的结果显示不少证明和I -Highlight是主要模型与“脚手架系统”之间的重要关系。图4中多样性代理0的主要系统使用SONNET 3.5，“推理”亚衰老使用O3-Mini。 O3-MINI模型本身在AIME和GPQA钻石中分别获得了87％和79％的奖金，具有“高”识别能力，而总体代理系统在这两个基准测试中的平均为76％。通过观察轨迹，研究人员发现，在许多操作中，主要代理只会给基于O3-MINI的推理剂带来问题，并且无法完全使用代理系统的全部能力。对于“意识模型”，例如O1，O3-Mini或DeepSeek-R1，研究人员怀疑旨在促进行为的粗糙组件（如图4中的迭代4和6中）实际上可能会干扰受过培训的婴儿思维的思维链，从而导致绩效降解。更多研究尾巴，请参考原始纸。