微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 清华大学团队开发STOCKBENCH:AI能否在股市中赚到真金白银?

清华大学团队开发STOCKBENCH:AI能否在股市中赚到真金白银?

2025-10-29 13:54
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-29 13:54 科技行者

这项由清华大学李娟子教授团队和北京邮电大学联合开展的研究发表于2025年10月,论文编号为arXiv:2510.02209v1。研究团队的核心成员包括来自清华大学的陈彦旭、姚子峻、刘彦涛、侯磊和李娟子教授,以及来自北京邮电大学的叶金和于嘉宁。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。

当我们看到各种AI助手能够回答复杂问题、写代码甚至创作文章时,一个非常现实的问题浮现出来:这些聪明的AI能否在股票市场上帮我们赚钱?毕竟,如果AI真的足够智能,为什么不让它们去做投资决策呢?这个问题不仅关系到普通投资者的钱包,更关系到AI技术的真实能力边界。

研究团队发现了一个有趣的现象:虽然当前最先进的大语言模型在回答金融知识问题时表现优异,但一旦让它们在真实的股票市场环境中进行交易,结果却令人意外。这就像一个在纸上谈兵时无所不知的军事理论家,一旦走上真正的战场,却发现理论与实践之间存在巨大鸿沟。

为了找到这个问题的答案,研究团队创建了一个名为STOCKBENCH的全新测试平台。可以把这个平台想象成一个专门为AI交易员设计的"驾考场地"。就像学开车需要在真实道路条件下测试一样,要真正了解AI的投资能力,就必须让它们在真实的市场环境中接受考验。

这项研究的独特之处在于,它是首个将AI直接放入真实股票交易环境中进行长期测试的系统性研究。研究团队选择了道琼斯工业平均指数中权重最高的20只股票作为投资标的,让各种先进的AI模型在2025年3月到6月这四个月期间进行日常交易决策。每个AI都获得了10万美元的虚拟资金,就像给每个参赛者相同的起始条件一样。

研究结果揭示了一个既令人惊讶又发人深省的现象。在测试的14个不同AI模型中,包括OpenAI的GPT-5、Anthropic的Claude-4、以及来自中国的Qwen3等顶级模型,大部分AI的表现都难以超越一个极其简单的策略:将资金平均分配到所有股票上,然后什么都不做,静静等待。这个被称为"买入并持有"的策略虽然听起来毫无技术含量,却成了大多数AI难以逾越的基准线。

具体来说,在所有参与测试的AI模型中,表现最好的是Kimi-K2,它实现了1.9%的收益率,同时最大回撤控制在11.8%。紧随其后的是Qwen3-235B-Ins,收益率达到2.4%,最大回撤为11.2%。相比之下,简单的买入持有策略只获得了0.4%的收益,最大回撤却高达15.2%。这意味着,虽然大部分AI无法大幅超越基准策略,但最优秀的几个AI确实展现出了一定的投资能力。

一、AI投资的真实考场:STOCKBENCH平台揭秘

要理解这项研究的价值,我们首先需要了解研究团队是如何创建这个AI投资"考场"的。传统的AI金融能力测试就像让学生做选择题一样,只需要回答一些关于财务知识的问题。但真正的投资就像开车上路,需要在复杂多变的环境中做出连续的决策。

STOCKBENCH平台的设计理念可以用建造一个真实的模拟城市来类比。研究团队精心构建了一个包含真实市场数据的交易环境,确保AI面对的是与真实投资者完全相同的信息和挑战。这个环境包含三个核心要素:投资标的、历史市场数据和新闻信息。

在投资标的选择上,研究团队选择了道琼斯工业平均指数中权重最高的20只股票。这些股票涵盖了科技、金融、制造业等多个行业,包括苹果、微软、波音、可口可乐等家喻户晓的公司。选择这些股票的原因很简单:它们足够知名,信息透明度高,同时代表了全球股市的主要趋势,不容易受到短期投机情绪的过度影响。

历史市场数据方面,每只股票都配备了完整的价格信息和基本面数据。这些数据包括开盘价、市值、市盈率、股息收益率、52周最高最低价等关键指标。这就像给每个AI配备了一套完整的"仪表盘",让它们能够全面了解每只股票的基本情况。

新闻信息的处理更加细致入微。研究团队为每只股票收集了过去48小时内的相关新闻报道,每天为每只股票提供最多5篇最相关的新闻。这样做的目的是模拟真实投资者获取信息的方式——既要保证信息的时效性,又要避免信息过载导致的决策困难。

平台的时间窗口选择极其重要。研究团队选择了2025年3月3日到6月30日这四个月期间的数据,确保这个时间段完全超出了当前AI模型的训练数据范围。这就像考试时使用全新的试题,确保AI不能依靠"记忆"以前见过的答案来作弊。这个时间窗口还将持续更新,始终保持领先于AI模型的训练数据,确保测试的公平性和有效性。

二、AI交易员的日常工作流程:四步决策法

理解AI如何进行股票交易,可以把它想象成一个每天上班的交易员的工作流程。研究团队将这个过程设计成四个连续的步骤,每个步骤都模拟了真实交易员的思考和决策过程。

第一步是投资组合总览。就像一个交易员每天早上第一件事是查看自己手中所有股票的情况一样,AI首先需要扫描所有20只目标股票的基本信息。这包括查看每只股票的最新价格、前一天的涨跌情况、近期新闻headlines以及AI当前持有的股份数量。这个步骤就像一个医生在诊断前先全面了解病人的基本情况,为后续的深入分析做准备。

第二步是深度股票分析。在获得全局视图后,AI需要选择几只股票进行更详细的研究。对于这些选中的股票,AI会获得更多的基本面数据,包括详细的财务指标、行业对比数据和更深入的新闻分析。这就像一个侦探在初步了解案情后,选择关键线索进行深入调查。

第三步是决策生成。基于前两步收集和分析的信息,AI需要对每只股票做出三种决策之一:增加持仓、减少持仓或保持现状。这里的设计非常贴近真实投资者的决策模式,避免了过于复杂的操作选项。研究团队发现,简单清晰的决策选项能够更好地反映AI的真实判断能力,而不会被复杂的交易机制所干扰。

第四步是执行和验证。AI做出决策后,系统会将这些决策转换为具体的股票买卖操作。如果AI的决策超出了可用资金的限制,系统会要求AI重新调整决策,直到所有操作都在合理范围内。这个步骤就像银行在处理大额转账时需要进行多重验证一样,确保每笔交易都是可行和安全的。

整个工作流程的设计哲学是保持简洁而现实。研究团队避免了过于复杂的交易策略或者不现实的信息获取方式,而是专注于模拟普通投资者能够获得的信息和能够执行的操作。这样的设计确保了测试结果的真实性和可信度。

三、参赛选手大揭秘:14个AI模型的实力大比拼

在这场AI投资能力的终极测试中,研究团队邀请了14个来自不同公司的顶级AI模型参与竞争。这些模型就像来自不同武术门派的高手,各有特色和优势。

来自中国的Kimi-K2表现最为亮眼,成为了这场比赛的冠军。Kimi-K2在四个月的交易期间实现了1.9%的收益率,同时将最大亏损控制在11.8%以内。更重要的是,它的风险调整后收益指标(Sortino比率)达到0.0420,显示出良好的风险控制能力。这就像一个既能赚钱又很谨慎的投资高手,不会为了追求高收益而承担过大风险。

紧随其后的是另一个中国模型Qwen3-235B-Ins,收益率达到2.4%,虽然略高于冠军,但最大回撤为11.2%,风险调整后的表现稍逊一筹。GLM-4.5排在第三位,收益率2.3%,最大回撤13.7%。这三个模型都展现出了超越简单基准策略的能力。

令人意外的是,一些在其他AI任务中表现卓越的模型在股票交易中的表现却差强人意。OpenAI的GPT-5只获得了0.3%的微薄收益,甚至不如简单的买入持有策略。这就像一个在象棋上无敌的大师,在围棋上却表现平平,说明不同类型的智能任务需要不同的能力。

更有趣的发现是关于"思维链"模型的表现。一些AI模型有两个版本:普通的指令版本和具有"思维链"功能的推理版本。理论上,推理版本应该能够进行更深入的思考和分析,就像一个慎重考虑每一步的棋手应该比冲动下棋的人表现更好。然而,实验结果显示,推理版本并没有在股票交易中展现出明显优势,有时甚至表现更差。

比如Qwen3-235B的指令版本排在第二位,而其推理版本(Think版本)排在第四位。这个现象引发了深入思考:在复杂的金融市场中,过度的思考和分析可能会导致决策的犹豫和错误,有时候直觉性的快速判断反而更有效。

研究还发现了模型规模与性能之间的有趣关系。并不是参数越多的模型就一定表现越好,但规模较大的模型在处理复杂决策时确实展现出更好的稳定性。当投资标的数量增加时,大型模型的表现相对更加稳定,小型模型则容易出现更大的波动。

四、意外发现:AI投资的三大挑战

在分析AI模型的表现时,研究团队发现了几个令人深思的现象,这些发现揭示了当前AI在实际应用中面临的真实挑战。

首先是规模化挑战。当研究团队将投资标的从5只股票逐步增加到30只股票时,几乎所有AI模型的表现都出现了明显下滑。这就像一个能够轻松管理小班级的老师,当班级人数增加到一定程度时就开始力不从心。具体来说,Kimi-K2在管理5只股票时亏损4.6%,但在10只股票时能够盈利3.2%,到20只股票时盈利下降到1.9%,而面对30只股票时又回到亏损状态。

这个现象反映了AI在处理复杂多变量决策时的局限性。虽然AI能够同时处理大量信息,但当决策空间变得过于复杂时,AI的表现反而不如专注于较少选择时稳定。这提醒我们,在实际应用中,给AI设定适当的任务范围可能比追求全面覆盖更有效。

第二个挑战是操作错误问题。在实际交易过程中,AI经常出现两类错误:计算错误和格式错误。计算错误指的是AI在计算应该买卖多少股票时出现数学计算失误,就像一个会计师在核算账目时算错了数字。格式错误则是AI无法按照要求的格式输出决策结果,导致系统无法理解其意图。

有趣的是,具有推理能力的AI模型在计算错误方面表现更好,这符合我们对"更聪明"的AI应该更少出错的预期。然而,这些推理模型在格式错误方面表现更差,因为它们倾向于产生更复杂、更详细的回答,反而偏离了系统要求的标准格式。这就像一个学者在回答问题时总是想要展示更多知识,结果反而没有直接回答提问者的具体问题。

第三个挑战是市场环境适应性。研究团队将测试期分为两个阶段:1月至4月的下跌期和5月至8月的上涨期。结果显示,几乎所有AI模型在下跌期都无法超越简单的买入持有策略,但在上涨期中,大部分AI都能够获得不错的收益。

这个发现说明当前的AI模型更适合在相对乐观的市场环境中操作,而在市场下跌时缺乏有效的防御机制。这就像一个只在晴天开车很厉害的司机,一遇到雨天就不知所措。对于实际投资者来说,这意味着AI投资工具可能更适合作为牛市中的辅助工具,而不是全天候的投资解决方案。

五、信息来源的重要性:新闻和数据哪个更关键

为了深入理解AI投资决策的基础,研究团队进行了一项有趣的实验:逐步移除AI能够获得的信息源,观察这对投资表现的影响。这就像测试一个厨师如果缺少某些调料,菜品的味道会发生什么变化。

实验分为三个层次:完整信息(包括新闻和基本面数据)、无新闻信息(只有基本面数据)、和无新闻无基本面(只有价格信息)。结果显示,信息的完整性对AI投资表现有着决定性影响。

以Kimi-K2为例,在拥有完整信息时,它能够获得1.9%的收益。当移除新闻信息后,收益下降到1.4%,降幅相对温和。但当同时移除新闻和基本面数据时,收益急剧下降到0.6%,几乎接近随机投资的水平。

这个结果表明,虽然基本面数据(如市盈率、市值等财务指标)对AI投资决策最为重要,但新闻信息也发挥着不可忽视的作用。新闻信息就像投资决策中的"调味料",虽然不是主要成分,但能够为决策增加重要的市场情绪和事件驱动因素。

更有趣的是,不同AI模型对信息缺失的敏感度存在显著差异。GPT-OSS-120B在移除新闻信息后表现基本无变化,但在进一步移除基本面数据后出现大幅亏损,从-1.2%下降到-3.4%。这说明不同的AI模型有着不同的信息处理偏好和能力,有些更依赖文本信息,有些更关注数值数据。

这个发现对实际应用具有重要意义。在为AI投资系统设计信息输入时,需要根据具体AI模型的特点来优化信息配置。同时,这也提醒我们,单纯依靠价格数据进行投资决策是远远不够的,AI需要多维度的信息支持才能做出合理的投资判断。

六、风险控制能力:AI的隐藏优势

虽然大多数AI模型在绝对收益方面没有显著超越基准策略,但在风险控制方面却展现出了令人刮目相看的能力。这就像一个司机虽然开得不是最快,但从来不出事故,这种稳定性本身就是一种价值。

传统的投资评估往往只关注收益率,但专业投资者更看重风险调整后的收益。在这个指标上,几乎所有参与测试的AI模型都表现出了优于基准策略的能力。基准的买入持有策略虽然只有0.4%的收益,但最大回撤达到了15.2%,这意味着在某个时间点,投资者可能面临超过15%的账面损失。

相比之下,表现最好的几个AI模型都将最大回撤控制在12%以内。Kimi-K2的最大回撤为11.8%,Qwen3-235B-Ins为11.2%,这些数字看似与基准策略相差不大,但在实际投资中,降低几个百分点的最大损失可能意味着投资者心理压力的大幅减轻。

风险调整后收益的计算使用了Sortino比率,这个指标只惩罚下行波动,更适合评估投资策略的实际价值。在这个指标上,所有排名前十的AI模型都超越了基准策略,说明它们在控制下行风险方面确实具有优势。

这种风险控制能力可能源于AI的一个天然特征:它们不会受到情绪影响。人类投资者经常因为恐惧、贪婪、从众心理等情绪因素做出不理性的决策,特别是在市场极端波动时。AI则能够始终保持"冷静",严格按照分析结果进行决策,避免了情绪化交易带来的额外风险。

然而,这种风险控制能力也带来了一定的代价。AI的保守倾向可能使它们错过一些高收益机会,特别是在市场快速上涨时。这就像一个过于谨慎的驾驶员,虽然很安全,但可能错过一些合理的超车机会。

七、模型稳定性分析:谁最值得信赖

在投资领域,稳定性往往比短期的高收益更重要。一个时好时坏的投资策略会让投资者在心理上承受巨大压力,而稳定的表现则能够建立长期的信任关系。

通过分析不同AI模型在多次独立测试中的表现差异,研究团队发现了模型稳定性的有趣规律。DeepSeek-V3展现出了最高的稳定性,其收益波动性仅为0.074×10??,这意味着无论测试多少次,它的表现都非常一致。相比之下,GPT-OSS-120B的波动性高达10.19×10??,表现极不稳定,就像一个情绪波动很大的交易员。

稳定性高的AI模型通常具有几个共同特征:它们的决策逻辑相对保守,不会因为单个信息源的变化而做出激进调整;它们在处理相似情况时能够保持一致的反应模式;它们对噪声信息的敏感度较低,能够专注于核心的投资信号。

中等规模的模型(如GLM-4.5、Qwen3-30B-Think)在稳定性方面表现相对较好,这可能是因为它们既有足够的能力处理复杂信息,又不会因为过度复杂而产生不稳定的行为。最大的模型和最小的模型反而在稳定性方面表现不佳,这提示了AI应用中"适度"的重要性。

稳定性分析还揭示了一个重要现象:某些AI模型在特定市场条件下表现出色,但在其他条件下就显得力不从心。GPT-OSS-120B就是一个典型例子,它在上涨期表现优异,但在下跌期表现糟糕,整体稳定性因此受到影响。

这个发现提醒我们,在选择AI投资工具时,不应该只看其在某个特定时期的表现,而应该考虑其在不同市场环境下的一致性和可预测性。一个稳定但收益中等的AI可能比一个收益波动很大的AI更适合长期投资。

八、理论与实践的距离:为什么聪明不等于会投资

这项研究最令人深思的发现或许是:在传统金融知识问答中表现卓越的AI模型,在实际投资中的表现却参差不齐。这个现象就像一个在课堂上门门考试满分的学生,走上工作岗位后却发现理论知识难以直接转化为实践能力。

传统的金融AI评估主要依赖于问答测试,比如询问AI关于财务比率的计算、投资理论的理解、市场机制的认知等。这些测试虽然能够衡量AI的知识储备,但却无法评估其在动态、不确定环境中的决策能力。投资决策需要的不仅仅是知识,更需要判断力、时机把握和风险平衡能力。

实际投资环境与理论学习环境存在根本性差异。在回答问题时,AI面对的是有标准答案的静态问题,而在投资时,AI需要在信息不完整、未来不确定的情况下做出可能影响实际收益的决策。这就像医学院的学生可能在考试中获得满分,但在面对真实病人时却需要更多的临床经验和直觉判断。

研究结果显示,那些在推理任务中表现出色的AI模型在投资中并没有显著优势,有时甚至表现更差。这可能是因为金融市场充满了非理性因素和随机性,过度的逻辑推理反而可能导致分析瘫痪或者过度拟合历史模式。

另一个重要因素是时间压力。在实际投资中,AI需要在有限时间内处理大量信息并做出决策,这种压力下的表现往往不同于在充足时间下的理论推理。市场不会等待AI完成完美的分析,时机的把握往往比分析的深度更重要。

这个发现对AI的应用具有广泛启示。它提醒我们,在评估AI的实用性时,不能仅仅依赖标准化测试的结果,而需要在真实应用场景中进行验证。同时,这也说明了专门针对特定应用场景进行AI训练和优化的重要性。

说到底,这项研究为我们揭示了AI技术发展的一个重要阶段性特征:虽然AI在很多方面已经展现出超人的能力,但在需要综合判断、风险评估和动态决策的复杂现实任务中,它们仍然面临着诸多挑战。AI能够在股市中实现盈利,甚至在某些方面超越简单的投资策略,但距离成为真正可靠的投资顾问还有一段路要走。

这并不意味着AI在投资领域毫无价值。相反,AI在风险控制、信息处理和减少情绪化决策方面展现出的优势,使其成为人类投资者的有力辅助工具。关键是要认识到AI的能力边界,在合适的场景中发挥其优势,而不是盲目地将所有投资决策都交给AI。

对于普通投资者而言,这项研究提供了一个重要提醒:技术的进步虽然为投资提供了新的工具和可能性,但成功的投资仍然需要人类的判断力、经验积累和风险意识。AI可以帮助我们处理信息、控制风险,但最终的投资决策责任仍然在我们自己手中。

研究团队已经将STOCKBENCH平台开源,这意味着其他研究者和开发者可以在此基础上继续改进AI的投资能力。随着技术的不断发展和数据的持续积累,我们有理由相信,未来的AI在投资领域会有更出色的表现。但在那一天到来之前,我们需要保持理性和谨慎,既不低估AI的潜力,也不高估其当前的能力。

这项研究最终告诉我们,真正的智能不仅仅体现在回答问题的准确性上,更体现在面对不确定性时的决策质量上。在这个意义上,AI仍然在学习如何成为一个合格的投资者,而我们人类也在学习如何更好地与AI协作,发挥各自的优势,共同应对投资中的挑战和机遇。

Q&A

Q1:STOCKBENCH是什么?它有什么特别之处?

A:STOCKBENCH是清华大学团队开发的首个专门测试AI股票交易能力的平台。与传统只测试金融知识问答的方法不同,它让AI在真实股市环境中进行连续四个月的实际交易,直接测量AI能否赚到钱和控制风险,就像给AI安排了一场真实的投资考试。

Q2:测试结果显示AI投资能力如何?能赚钱吗?

A:测试结果显示部分AI确实能够盈利。表现最好的Kimi-K2获得了1.9%的收益,而简单的买入持有策略只有0.4%。但大多数AI的优势主要体现在风险控制上,它们能将最大亏损控制在12%以内,而基准策略的最大亏损达15.2%。

Q3:哪些AI模型在股票交易中表现最好?

A:前三名分别是Kimi-K2、Qwen3-235B-Ins和GLM-4.5,它们都是来自中国的AI模型。令人意外的是,一些在其他任务中表现卓越的模型如GPT-5在股票投资中表现平平,这说明投资能力与一般AI能力并不完全对应。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-