当前位置：首页 > news >正文

optimize_anything 把“调参”做成了一个通用接口

news 2026/6/2 10:03:53

论文 / 来源：optimize_anything: A Universal API for Optimizing any Text Parameter

原文：https://arxiv.org/abs/2605.19633

一句话先看懂：它想做的事情很野：把很多原本分散的优化问题，统一成对文本参数做迭代改进。

这篇工作看起来像“调参工具”，其实野心比这大。它在做的，不是给你一个更聪明的 prompt，而是想把很多原本各自为战的优化任务，统一成同一套接口。这意味着，智能体架构、调度策略、CUDA 内核、甚至一些几何问题，都能被放进同一类“文本参数优化”的框架里去看。

这类题我会优先把原论文首图贴进来，先用一张图把问题摆在桌面上。

论文速读

这篇论文一共 4 个部分，核心思路是：它想做的事情很野：把很多原本分散的优化问题，统一成对文本参数做迭代改进
先看问题：很多优化问题之所以烦，不是因为它们难到完全没法做，而是因为每个问题都像独立宇宙。做 agent 架构要一套，调度要一套，CUDA 内核又是一套，云成本优化还是一套…
再看方法：作者的办法，是把优化抽象成一个通用 API。先让模型根据评分函数去改进文本参数，再让搜索过程在统一的后端里跑起来。这样做的好处是，不管你优化的是 agent 的架构…
最后落到结论：对开发者来说，这篇论文最大的启发是：优化本身可以产品化。如果你已经在做很多需要迭代试错的文本任务，未必每次都要重新造轮子，先看看能不能把“打分—反馈—改进”做成统一…
你可以把它理解成问题 → 方法 → 结果 → 落地启示。

图示：论文速读

Figure 1: The optimize_anything loop: a text artifact 𝑥is passed to an evaluator 𝑓(𝑥) which returns a score plus diagnostic feedback (SI)…

图示：论文速读

Figure 4: ARC-AGI agent architecture evolution with Gem- ini 3 Flash. Validation accuracy reaches 93.5%; test accuracy improves from 32.5%…

它真正解决的是什么问题？

很多优化问题之所以烦，不是因为它们难到完全没法做，而是因为每个问题都像独立宇宙。做 agent 架构要一套，调度要一套，CUDA 内核又是一套，云成本优化还是一套。大家都在做“优化”，但接口彼此不通。这篇论文的意思是，别再把“文本参数调优”当成零散技巧了，它可以变成一个更统一的系统能力。

图示：它真正解决的是什么问题？

Figure 8: Single-task vs. multi-task mode on 10 selected Ker- nelBench problems. Multi-task (blue) consistently outper- forms single-task (…

它是怎么做的？

作者的办法，是把优化抽象成一个通用 API。先让模型根据评分函数去改进文本参数，再让搜索过程在统一的后端里跑起来。这样做的好处是，不管你优化的是 agent 的架构、调度策略还是某段代码，只要能定义反馈，就能进同一套流程。更进一步，多任务一起搜还会比单任务各自搜更划算，因为某些优化经验可以迁移。也就是说，系统不是在重复劳动，而是在复用优化轨迹。

图示：它是怎么做的？

Figure 2: Claude Code on the Bleve repository. Optimized skills boost pass rates to near-perfect while reducing resolve time by 47%. Skills…

对开发者和企业意味着什么？

对开发者来说，这篇论文最大的启发是：优化本身可以产品化。如果你已经在做很多需要迭代试错的文本任务，未必每次都要重新造轮子，先看看能不能把“打分—反馈—改进”做成统一工具。对企业来说，这个方向更像是“把算法能力平台化”。一旦你的内部系统、prompt、架构和调度都能走同一套优化接口，很多原本很散的工程动作就会变成可管理的资产。