LLM 直接写量化策略,到底靠不靠谱?
经常有人问我:
现在大模型写代码这么强,能不能直接让它写一个量化策略,然后拿去实盘?
这个问题,我以前也真试过。
当时 GPT-4o 刚火起来,网上到处都是“AI 几分钟写出完整项目”的视频。我也心痒,直接丢给它一句话:
用 Backtrader 写一个 RSI 超卖反弹策略。 RSI 低于 30 买入,高于 70 卖出,半仓。
十几秒后,代码出来了。
类继承、初始化、买卖逻辑、日志打印都有。复制进 IDE,运行也不报错。那一刻你会有一种错觉:好像真的只差一个提示词,就能把策略研究自动化了。
然后 equity 曲线出来了。
一条直线。
零笔交易。
这就是很多人第一次用 LLM 写策略时会遇到的现实:代码看上去像那么回事,回测框架也跑起来了,但策略本身并没有真正工作。
1. 第一个坑:代码没错,金融语义错了
我后来排查了两个小时,问题藏在 Backtrader 的细节里。
LLM 写的是:
if self.rsi < 30: self.buy(size=target_size)
这段代码在普通 Python 语法里看起来没毛病。Line对象也确实支持比较运算,所以程序不会报错。
但在 Backtrader 里,你真正想取的是当前 bar 的 RSI 值,应该写成:
if self.rsi[0] < 30: self.buy(size=target_size)
就这一个[0],足够让一个策略从“看起来能跑”变成“真的按当天指标判断”。
这类错误最麻烦的地方在于,它不是语法错误。
语法没问题,框架能跑,回测也能输出结果。只有真正熟悉框架的人,才会意识到这里的金融语义已经偏了。
修完这个,再跑。
还是零成交。
第二个坑更隐蔽:那段时间 RSI 根本没跌破 30。再加上 LLM 把几个入场条件用严格的and绑在一起,信号几乎不可能同时满足。
手动把阈值放宽、条件拆开以后,终于有交易了。
但手续费一扣,利润又被吃没了。
这件事给我的感觉很明确:
LLM 懂 Python,不代表它懂策略。
它能写类、写函数、写日志,也能调用框架。但它不一定知道一个条件会不会让信号消失,不一定知道手续费会不会吞掉边际收益,也不一定知道 Backtrader 这种框架的取值习惯。
这些东西不是代码语法,是量化研究员长期积累出来的“肌肉记忆”。
2. QuantCode-Bench:为什么“能跑”不等于“能交易”
最近 Lime 团队做了一个评测,叫 QuantCode-Bench。
它收集了 400 个具体的策略编程任务,把一批大模型拉到同一个回测环境里测试。
这个评测有意思的地方在于,它没有只看代码能不能生成,而是把量化策略开发拆成四道关卡。
| 关卡 | 测什么 | 常见失败 |
|---|---|---|
| 1. 语法正确 | 代码能否通过基础检查 | 大部分模型都能过 |
| 2. 回测可运行 | 能否在框架里跑完整回测 | 索引越界、数据对齐错误 |
| 3. 至少成交 | 策略是否真的产生交易 | 条件太严、信号为零 |
| 4. 逻辑一致 | 代码是否偏离原始策略意图 | 买卖条件写反、仓位规则偏移 |
最真实的是第三关:至少得下一笔单。
很多模型前两关都能过,看起来已经完成任务了。可一到“是否真的交易”,一批模型直接掉下去。
这和我当时的零成交经历非常像。
原文里提到,一遍跑下来,即便最强的 Claude-opus-4.6,通过率也只有 75.8%。国内表现较强的是 glm-5 单轮,以及 kimi-k2.5 多轮。
QuantCode-Bench 模型通过率对比
这张图反映的不是“哪个模型更会写代码”这么简单。
它说明量化代码任务有一个很特殊的断层:
从语法正确,到策略真实发生交易,中间隔着大量框架细节和金融直觉。
3. 失败原因其实很具体
这类任务失败,并不是因为模型完全不会写代码。
相反,大模型在基础代码生成上已经很强。真正让它翻车的,往往是一些特别小、但对交易系统很致命的细节。
原文里提到两个典型死因:
| 失败原因 | 占比 | 具体表现 |
|---|---|---|
| Line 对象布尔判断错误 | 13.1% | 忘记使用[0]获取当前 bar 的值 |
| 条件过于苛刻导致零信号 | 17.8% | 多个入场条件用and硬绑,回测期内几乎不触发 |
举个很典型的例子。
LLM 可能会写出这种条件:
if self.rsi[0] < 30 and self.close[0] > self.sma[0] and self.volume[0] > volume_threshold: self.buy()
从代码角度看,这很工整。
但从策略角度看,这可能直接把信号掐死。
RSI 低于 30,本来就常常出现在弱势下跌环境。你又要求收盘价站上均线,还要求成交量超过阈值,三个条件同时满足的概率可能非常低。
最后策略没亏钱,也没赚钱。
因为它根本没交易。
这类问题不是靠“模型参数更大”就能自然解决。它需要回测反馈、错误定位和策略语义检查。
4. 直接让 LLM 当交易员,风险很大
这组结果也能和另外两类研究放在一起看。
第一类是 AlphaForgeBench。
它测试的是 LLM 做交易决策的能力。里面有一个很刺眼的现象:如果直接让 LLM 当交易员,根据市场状态给出买卖决策,它的行为会非常不稳定,前后矛盾,方差很大。
但如果换个用法,把 LLM 当成量化研究员,只让它生成可执行的 Alpha 因子,把逻辑生成和交易执行拆开,结果会稳定很多。
这点很关键。
LLM 更适合做研究辅助,不适合直接接管交易执行。
第二类是 LLM-GA。
西交利物浦大学提出过一个框架,把大模型和遗传算法结合起来。大模型不负责“一次写出完美策略”,而是负责提供策略变异、交叉和逻辑约束,让搜索过程不要跑到完全离谱的方向。
这其实是更合理的用法。
人类提出假设 | LLM 生成策略表达 / 因子变体 | 回测系统验证 | 遗传算法筛选与变异 | 人类复核经济逻辑与风险
这里 LLM 是研究流程的一环,不是最终决策者。
5. Agentic 多轮修复,才是正确打开方式
QuantCode-Bench 里还有一个很有意思的数据。
单次生成时,最佳模型通过率只有七成多。但如果给模型加上 Agentic 多轮反馈机制,允许它失败、读取报错、最多修 10 次,最佳模型通过率可以提升到 95%-98%。
这就说得通了。
因为很多错误并不深。
它们不是“模型完全不懂量化”,而是:
1. 框架对象取值方式错了;
2. 条件组合导致没信号;
3. 数据对齐有偏移;
4. 仓位更新和订单状态没处理好;
5. 交易成本没有正确扣除。
这些问题,只要有回测反馈,就能修。
一个更合理的 LLM 量化开发流程应该像这样:
策略想法 -> LLM 生成初稿 -> 回测运行 -> 捕捉报错 / 零成交 / 逻辑偏移 -> LLM 修复代码 -> 再次回测 -> 人类检查参数、经济逻辑、风险暴露
这个流程里,LLM 的价值很大。
它可以快速搭框架、写指标、处理数据、生成可运行代码。
但核心参数、交易逻辑、信号解释、风险边界,仍然要人来盯。
6. 我对 LLM 写策略的判断
如果把 LLM 当成“自动提款机”,基本迟早要失望。
它不会因为你说一句“生成一个高夏普策略”,就真的理解市场里谁在亏钱、为什么愿意亏钱、这条 Alpha 能持续多久。
但如果把它当成一个手速很快、偶尔粗心、需要严格 review 的量化实习生,它已经非常有价值。
可以让它做:
1. 数据清洗脚本;
2. 指标和因子计算;
3. 回测框架初稿;
4. 参数扫描;
5. 结果可视化;
6. 报错修复;
7. 策略变体生成。
不应该直接交给它做:
1. 实盘买卖决策;
2. 核心 Alpha 假设;
3. 交易成本假设;
4. 风险敞口判断;
5. 策略是否值得放大的最终判断。
一句话:
LLM 可以加速量化研究,但不能替代量化判断。
7. 更现实的系统工程:harness
原文里提到一个词:harness。
这个词很重要。
想让 AI 真正参与策略生成,不是靠一两句 prompt,而是靠一整套约束、测试和反馈系统。
至少要包括:
1. 标准化数据接口;
2. 明确的策略模板;
3. 自动回测环境;
4. 零成交检测;
5. 交易成本检查;
6. 数据对齐检查;
7. 未来函数扫描;
8. 样本外验证;
9. 人工 review 节点。
没有这些东西,LLM 只是一个会写代码的黑盒。
有了这些东西,它才可能变成一个可控的研究助手。
这也是析境科技AI量化平台接下来重点要解决的问题:不是让 AI 凭空“发明圣杯”,而是把研究流程拆成可验证、可回滚、可迭代的模块。
8. 最后
LLM 直接写量化策略,靠不靠谱?
我的答案是:
单次生成,不靠谱。放进完整研究系统里,非常有用。
大模型真正改变的不是“谁能一键生成赚钱策略”,而是量化研究的工作流。
过去,一个想法要变成可运行回测,需要研究员自己写一堆数据处理、框架适配和指标计算。现在,这些体力活可以被 LLM 大幅压缩。
但压缩体力活,不等于压缩判断。
策略为什么有效,信号为什么触发,条件是否过严,成本是否真实,样本外是否站得住,这些问题还是要人来回答。
AI 的边界,不在它能不能写代码。
真正的边界在于:我们有没有能力把它放进一个足够严格的研究系统里。
复现代码和更完整的实验细节,我会放在析境科技AI量化平台。
SeekGain 析境科技是国内首个个人AI量化平台,也是连接量化研究者、AI 开发者和投资实践者的国内最大AI量化社群之一。我们聚焦机器学习在量化投资中的前沿应用,持续分享论文复现、模型代码、核心 Alpha 因子、策略研究框架和 AI 量化工具链。
核心价值:
1. 顶级圈层:连接量化研究员、私募创始人、基金经理、券商金工分析师、GitHub 高星项目作者及前沿研究者。
2. 每日高价值内容:持续更新前沿论文、研报复现、模型代码、核心 Alpha 因子和可落地的量化研究案例。
3. AI量化工具链:围绕因子挖掘、策略复现、回测验证和量化 Agent,帮助个人研究者把想法更快落到可验证的策略研究里。
加入 SeekGain 析境科技,和真正做研究的人一起,把 AI 量化从概念推进到可复现、可验证、可迭代。
