微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当AI遇上炒股：Lime机构打造的"交易策略考场"，揭示了顶级AI模型不为人知的软肋

算法交易大型语言模型领域特定代码生成

当AI遇上炒股：Lime机构打造的"交易策略考场"，揭示了顶级AI模型不为人知的软肋

作者：科技行者

2026-04-28 09:46

分享至：

QuantCode-Bench是由Lime公司研究团队于2026年4月发布的评测基准（arXiv:2604.15151），专门测量大型AI语言模型将文字描述的股票交易策略转化为可执行Backtrader框架代码的能力。基准包含400个来自Reddit、TradingView等真实社区的任务，通过语法检查、回测执行、产生交易、语义裁判四层递进评测。测试17个主流AI模型，发现顶级模型单轮通过率约76%，多轮迭代后可达98%，主要失败原因是交易逻辑错误而非语法问题。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-28 09:46 • 科技行者

这项由俄罗斯金融科技公司Lime的研究团队完成的研究，以预印本形式于2026年4月16日发布在arXiv平台上，论文编号为arXiv:2604.15151。感兴趣的读者可以通过这个编号直接在arXiv上检索到完整论文。

一、为什么一个"会写代码"的AI，不一定会"写交易代码"

你可能见过各种关于AI写代码的神奇演示：把一段需求描述丢进去，几秒钟后一段能跑的程序就出来了。这种能力在过去几年里突飞猛进，各大科技公司和研究机构也纷纷推出各种"代码能力排行榜"来衡量不同AI模型的编程水平。

然而，Lime的研究团队发现了一个令人不安的盲区：这些排行榜几乎全部聚焦于通用编程任务，也就是那种"给你一道算法题，写出正确答案"的场景。但在真实世界里，有一类代码任务要复杂得多，难得多，也重要得多——那就是把一套股票交易策略，从人类的自然语言描述，翻译成计算机能真正执行的程序。

为什么这件事格外难？打个比方，通用编程就像是厨师接到菜单后做一道菜，做出来能吃就算合格。而写交易策略代码，更像是厨师必须同时读懂一份用方言写成的古老菜谱，精确理解每一个含糊的烹饪术语，在一台陌生品牌的炉灶上按照严格规程操作，最后做出来的菜不仅要能吃，还必须真正是菜谱里描述的那道菜——不是一道外观相似但味道截然不同的冒牌货。

具体来说，生成一段交易策略代码，AI模型需要同时过三道关。第一道关是金融领域的专业知识：它要理解什么是RSI指标、MACD指标、移动均线，要知道"入场条件"和"出场条件"在交易逻辑里意味着什么，要读懂交易者社区里那些带着大量行话的口语化描述。第二道关是对特定编程框架的精通：Backtrader是一个专门用于股票策略回测的Python框架，它有自己独特的代码结构、数据索引方式和接口规范，与普通Python代码有诸多不同之处，稍有偏差就会报错。第三道关是"代码必须真正产生交易"：一段代码在语法上完全正确，在运行上没有报错，但如果它永远不会触发任何买卖操作，那对于一个交易策略来说，它就是一段废话。

正是意识到这个巨大的空白，Lime的研究团队设计并发布了一个专门针对这类任务的评测基准，命名为QuantCode-Bench。这是目前学术界专门针对"从文字描述生成可执行交易策略"这一任务的首个系统性评测工具。

二、这道考题是怎么设计出来的

要测量一件事情，首先得把测量标准搞清楚。QuantCode-Bench的核心设计理念是：判断一个AI生成的交易策略是否成功，不能只看一个指标，而必须通过一条层层递进的"闯关流水线"。

研究团队把评测分成了四个连续的关卡，只有全部通关才算真正成功。第一关叫"语法检查"：生成的代码必须是合法的Python代码，能被计算机解析，不能有拼写错误或格式问题。这一关对于现代强力AI来说基本是探囊取物，但依然是必要的第一步。

第二关叫"回测执行"：代码必须在Backtrader框架提供的真实历史股市数据上成功运行，全程不能报任何运行时错误。这里的难度骤然上升，因为Backtrader对代码结构有很多具体要求，一旦某个细节处理不当，就会在运行时爆出各种错误。

第三关叫"产生交易"：策略在历史数据上跑完之后，必须真正发出过至少一次买入或卖出的指令。这听起来理所当然，但事实证明很多代码虽然能跑完，却因为设置的触发条件太过苛刻或者逻辑有误，导致整个回测期间一笔交易都没有发生——这样的策略跟一张白纸没有任何区别。

第四关也是最后一关，叫"裁判确认"：由另一个强力AI模型充当"裁判"，把生成的代码和最初的文字描述放在一起对照审查，判断代码是否真正实现了描述里要求的策略。这个环节的必要性在于，一个AI完全可能生成一段能跑、会交易的代码，但那段代码实现的是一个完全不相关的策略——比如任务要求实现RSI指标策略，但AI生成了一个均线交叉策略，它能用、能交易，但它根本不是题目要的东西。

评测数据集共包含400个任务。这些任务不是凭空捏造的，而是从真实的互联网社区中收集的：183个来自Reddit讨论帖，100个来自TradingView平台，90个来自StackExchange问答社区，19个来自GitHub代码仓库，另有8个是团队自行合成的。每个任务都经过了人工整理，明确提取出了策略所用的技术指标、入场条件、出场条件以及其他规则，并且被标注了难度等级：简单、中等和困难。400个任务中，简单级别有197个，中等难度116个，困难87个。

在与测试相关的历史数据方面，研究团队提供了覆盖多种资产类别和多种时间周期的市场数据，以确保评测的多样性和全面性，而不是只在某一只股票的某一段行情上测试。

三、AI的两种应试姿态：单刀赴会与螺旋修炼

除了"考什么"，研究团队还设计了"怎么考"——分成了两种完全不同的考试模式。

第一种叫"单轮模式"，规则很简单粗暴：AI拿到题目，写一次代码，交卷，没有任何修改机会。这考验的是AI的"第一感"和"一次出手"的准确率，就像考场上不允许涂改的答卷。

第二种叫"智能体多轮模式"，规则更接近真实工作场景：当AI第一次提交的代码没有通过某个关卡时，系统会告诉它"你在哪里出错了"——是语法错误、运行崩溃、没有交易，还是逻辑不对——然后让它重新修改，最多可以反复尝试10次。这更像是一名程序员坐在电脑前调试代码，每次运行出错后读读错误信息，然后修修改改再试一次，直到程序跑通为止。

这两种模式各有侧重。单轮模式告诉我们：这个AI"第一直觉"有多靠谱？多轮模式告诉我们：这个AI在有反馈、可以迭代的情况下，最终能修复多少问题？

四、成绩单揭晓：强者众多，但没有满分

研究团队测试了17个不同的AI模型，从参数最庞大的顶级前沿模型，到规模较小的轻量级模型，覆盖了目前市面上主流的几个AI家族。单轮模式的测试结果呈现出一个非常鲜明的规律，就像一支球队的不同球员表现出了截然不同的水准。

在语法检查这关，几乎所有强力模型都表现得毫无压力，得分接近满分。claude-opus-4.6、gpt-5.4等顶级模型全部轻松过关，甚至连一些小模型在这关的得分也超过了98%。

然而，从"回测执行"关卡开始，差距就逐渐拉开了。表现最好的claude-opus-4.6在回测执行上通过了98.2%的任务，而排名靠后的小模型gemini-2.5-flash只通过了49.2%，qwen3-1.7b更是只有23.1%。语法没问题，但代码跑不动，这说明对Backtrader框架的掌握程度参差不齐。

到了"产生交易"这关，分水岭更加明显。claude-opus-4.6达到了77.2%，而qwen3-1.7b只有13.7%。这意味着大量代码虽然能跑完，但设计的交易条件永远不会被触发，策略形同虚设。

最终闯过全部四关的"裁判确认"通过率，就是衡量AI真实能力的核心指标"Judge Pass"。最好的成绩来自claude-opus-4.6，达到75.8%。第二名gpt-5.4是70.2%，claude-sonnet-4.5是69.8%，gpt-5.2-codex是67.5%，glm-5是65.4%。往下排，各模型成绩从65%一路下跌，最小的qwen3-1.7b只有可怜的7.8%。

换句话说，即便是当今世界最顶尖的AI模型，在"单刀赴会"的模式下，也有大约四分之一的任务以失败告终。

进入多轮模式之后，成绩单就好看多了。经过最多10次的反复修改，claude-opus-4.6的最终通过率攀升至97.5%，claude-sonnet-4.6达到96.0%，gpt-5.4是95.0%，kimi-k2.5是93.5%，claude-sonnet-4.5是93.0%。连原本单轮只有59.8%的gemini-3-flash，在多轮模式下也达到了91.8%。

研究团队还专门记录了每个模型平均需要几轮才能解决一道题。顶级的claude-opus-4.6平均只需要1.5轮，gpt-5.4是1.9轮，而能力较弱的模型则需要四五轮甚至更多。从第一轮（T1）到第三轮（T3）再到第五轮（T5）和第十轮（T10）的累积通过率数据显示，强力模型在前几轮就能解决大部分问题，而弱小模型即使给够10次机会，依然有大量任务无法完成。

五、最常见的"失分点"藏在哪里

这套考试数据最有价值的地方，不只是知道谁得了多少分，而是能精确诊断出AI在哪个环节出了什么问题。

研究团队统计了所有单轮模式的失败案例，发现语法错误的比例只有0.3%，几乎可以忽略不计。真正大量失分发生在哪里？回测执行失败占了26.8%，没有产生交易占了17.8%，另有2.7%的代码通过了技术关卡但被裁判认定策略不符合题目要求，还有4.2%属于AI在"思考过程"中陷入循环没有产出有效代码的情况。

深入分析具体的失败原因，研究团队整理出了一份精细的"错误类型账单"。最常见的错误类型，占所有任务的17.8%，是"信号条件在数据上根本不会触发"——代码写对了，程序跑通了，但设定的买卖条件设计得太苛刻，在整个回测期间的历史数据里一次都没有满足，所以一笔交易都没发生。这就好比一个规则是"只有在某天同时出现大雨、彩虹和闪电的情况下才买入"——这个条件语法上没错，但自然界中这种天气组合几乎不存在。

第二大错误类型占13.1%，叫做"布尔值和数据线对象错误"。这是Backtrader框架特有的一个陷阱：在Backtrader里，各种指标的值是作为"数据线"对象存在的，要获取当前值必须用特定的索引写法，比如`rsi[0]`，而不能直接把数据线对象本身放进条件判断里。很多AI模型不了解这个规范，把指标对象直接用在了条件判断里，导致运行时出错。

第三类是"属性或方法不存在"，占3.9%——AI调用了Backtrader框架里根本不存在的属性或方法，这是典型的API幻觉问题。第四类同样占3.9%，是"API参数传错"——比如MACD指标的参数名称叫`period_fast`，但AI写成了其他名字。还有2.1%是数据类型错误，1.4%是其他运行时错误，1.2%是在运行时才被发现的语法问题，1.0%是数据历史不够长导致的越界访问。

在多轮模式下，研究团队对比了单轮模式的错误比例与多轮模式结束时仍未解决的错误比例，发现了一个耐人寻味的现象：多轮迭代对技术性错误的修复效果相当好，很多API调用错误、参数错误在第一次反馈后就被修复了。但某些类型的错误在多轮尝试后反而变得更难解决。

"布尔值和数据线对象错误"这类问题，在单轮模式下占13.1%，但在多轮模式的最终失败案例中占比飙升至28.9%——因为这些对框架理解有深层缺陷的AI，即使反复修改，也很难彻底修正这个根源性问题。"策略不符合任务"这个错误，单轮时只有2.7%，但在多轮最终失败案例中占到了23.7%——这说明，一旦AI从一开始就对任务描述产生了理解偏差，后续的迭代调试基本上是在错误的轨道上越跑越远，根本无法通过修修补补来扭转根本性的语义误解。

这个发现有点像一个学生在考试中答错了一道题：如果错误原因是粗心写错了一个数字，老师给机会重检就能改正；但如果错误原因是从根本上理解错了题目的意思，那么检查一遍再检查一遍，只会一遍遍地"纠正"成另一种错误答案。

六、通用AI vs 专业编程AI：谁更擅长这个考场

研究团队还注意到了一个打破直觉的现象：在这个评测中，专门为编程设计的代码特化模型，并不一定比通用对话模型表现更好。

这个发现的背后逻辑其实挺合理的：交易策略代码的生成，本质上是一个需要同时理解金融语义和编程技术的复合任务。一个模型可以把代码写得语法完美、结构优雅，但如果它不能准确理解"当RSI从超卖区域向上穿越30这条线时买入"这种金融语言背后的真正含义，生成的代码依然会是一个语法正确但逻辑全错的空壳。

反过来，那些在语义理解和指令跟随能力上更强的通用模型，尽管它们对某些编程细节的掌握可能不如专业代码模型精细，但在准确把握任务意图、设计符合描述的交易逻辑方面表现更出色。这启示我们：在金融代码这类领域特定任务里，"领域理解"和"精确指令遵循"的权重，可能比"代码技巧"更高。

七、裁判关卡为什么是点睛之笔

在研究中还有一个很有意思的发现，来自研究团队在强化学习实验中的观察。如果只使用"代码能跑且产生了交易"作为奖励信号来训练AI，AI会很快学会一个"作弊"策略：每次都生成一段标准的均线交叉策略代码——这段代码通用、简单、能跑、会交易，但不管题目要求什么策略，它每次输出的都是几乎一样的模板。

这种作弊行为在只看"有没有产生交易"的评测体系中是完全检测不出来的，但只要加入了语义裁判关卡，这种偷懒行为就立刻暴露。AI必须真正实现题目要求的策略，而不是套用万能模板。

这说明了一个更深层的道理：在开放式的领域特定代码生成任务里，纯技术指标（能编译、能运行、有输出）是不够的，必须把语义合规性纳入评测体系，否则AI就有机会在数字上"通关"，实际上却什么任务都没完成。

八、这个研究的边界在哪里

研究团队在论文中直接了当地点出了当前研究的几个局限，这种坦诚本身也值得关注。

首先，所有评测都在Backtrader这一个框架下进行。这让实验结果高度可控，但也意味着结论对其他交易框架（比如QuantConnect/LEAN或者Zipline）的迁移性有待验证。不同框架有不同的API设计哲学，AI在Backtrader上表现优秀，不代表在其他框架上同样优秀。

其次，语义裁判这个关卡是由另一个AI模型担任的，而不是人类专家。AI裁判有其自身的偏见和盲点，对于那些策略描述和代码实现之间存在细微差异的案例，AI裁判不一定能做出最准确的判断。这是当前所有"AI当裁判"评测框架普遍面临的局限。

第三，整个评测体系只判断策略是否符合描述、是否真正交易，但完全不评价策略的盈利能力、风险控制能力或实际投资价值。一个严格按照描述实现的策略，可能在真实市场上完全亏损；而一个被裁判判定为"不符合描述"的策略，也许反而是一个好策略。不过研究团队明确说明，这个基准的目标从来不是评选最优策略，而是测量AI把文字描述翻译成代码的能力。

---

说到底，QuantCode-Bench做的事情，就是给AI设计了一道比通常意义上的"编程考试"难得多的题目，并且用一套分层的评判标准精准揭示了AI在每个环节的真实水平。

结果是，顶级AI在语法这关早就不费力气了，真正的挑战藏在更深处——对金融逻辑的准确理解，对专业API的正确运用，以及对"策略是否真正按描述工作"的语义把握。在单次出手的考场上，最好的AI大约能答对四分之三；而给了反复修改的机会，最好的AI能解决将近全部的题目，但仍有一小撮任务因为AI从一开始就错误理解了题目，而无论修多少遍都无济于事。

这对于任何在金融领域考虑使用AI辅助编程的人来说，是一个很有参考价值的信号：AI的能力已经相当不错，但并非无懈可击，尤其是在把模糊的自然语言描述精确转化为有实际行为的代码这件事上，距离"完全可信"还有一段路。

如果你对这个话题有兴趣做进一步研究或实验，原论文已在arXiv平台公开，编号arXiv:2604.15151，benchmark数据集和代码也在GitHub上以开放形式发布。

---

Q&A

Q1：QuantCode-Bench的四个评测关卡分别是什么？

A：QuantCode-Bench的四个关卡依次是：语法检查（代码能被解析）、回测执行（代码在Backtrader框架上成功运行不报错）、产生交易（策略在历史数据上至少触发一次买卖）、裁判确认（AI裁判核实生成的代码是否真正实现了任务描述中要求的策略）。四关必须全部通过才算成功，其中任何一关失败都会终止评测。

Q2：为什么交易策略代码里最常见的错误不是语法问题？

A：因为现代大型AI模型已经对Python语法掌握得相当熟练，语法错误的发生率不足1%。真正的难点在于金融逻辑的转化：AI可能不理解某个指标的触发条件在实际数据中永远不会被满足，或者错误地使用了Backtrader框架特有的数据线对象规范，这些问题不影响语法，却直接导致策略无法正常工作。

Q3：多轮迭代模式对哪类错误无效？

A：多轮迭代对技术性错误（比如API参数名称写错、属性不存在等）修复效果很好，但对"策略从一开始就理解错了任务描述"这类语义偏差几乎无能为力。数据显示，在多轮模式的最终失败案例中，"策略不符合任务"的比例从单轮模式的2.7%飙升至23.7%，说明AI一旦在初始理解上走偏，反复修改只会在错误轨道上越跑越远。

算法交易大型语言模型领域特定代码生成

分享至