微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 哥伦比亚大学团队揭秘:AI购物助手竟然比人类更加"偏心"?

哥伦比亚大学团队揭秘:AI购物助手竟然比人类更加"偏心"?

2025-08-11 09:57
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-11 09:57 科技行者

这项由哥伦比亚大学商学院的Yash Kanoria和Omar Besbes教授,联合MyCustomAI公司的Amine Allouah和Josué D Figueroa,以及耶鲁大学的Akshit Kumar共同完成的研究发表于2025年8月,论文标题为"What Is Your AI Agent Buying? Evaluation, Implications, and Emerging Questions for Agentic E-Commerce"。这篇论文已在arXiv平台发布(论文编号:arXiv:2508.02630v1),感兴趣的读者可以通过该编号搜索查阅完整论文。

当我们还在为网购时眼花缭乱的商品选择而烦恼时,AI购物助手已经悄然登场,准备代替我们做出购买决定。但你有没有想过,这些AI助手在购物时究竟在"想"什么?它们会像人类一样被广告吸引,还是有着完全不同的购物偏好?

研究团队构建了一个名为ACES(智能电商模拟器)的测试环境,就像搭建了一个AI专用的"购物实验室"。他们邀请了三位明星级的AI模型——Claude Sonnet 4、GPT-4.1和Gemini 2.5 Flash来参与这场独特的购物测试。这些AI助手需要在模拟的电商页面上挑选商品,而研究人员则像隐身的观察者一样,记录下它们的每一个选择。

研究结果令人震惊。这些AI购物助手不仅表现出了与人类截然不同的购物偏好,甚至在同一组商品面前,不同的AI模型会做出截然不同的选择。更有趣的是,它们对商品在页面上的位置异常敏感,但每个AI对"黄金位置"的理解完全不同。有的AI偏爱页面左上角,有的则钟情于右下角,就像每个人都有自己独特的阅读习惯一样。

这项研究的意义远不止于了解AI的购物偏好。随着OpenAI的Operator和谷歌的Project Mariner等AI购物助手的问世,我们正站在一个全新时代的门槛上。在这个时代里,数百万消费者可能会将购物决定完全交给AI代理。这不仅会重塑整个电商生态系统,还可能影响到每一个网购用户的钱包。

一、AI购物助手的"性格测试"

要理解AI购物助手的行为,研究团队首先需要搭建一个完全可控的测试环境。这就像是为AI们准备了一个专门的"购物考场",在这里,研究人员可以精确控制每一个变量,观察AI们的反应。

ACES系统的核心是一个模拟电商网站,看起来就像是亚马逊或淘宝的简化版本。页面上整齐地排列着八件商品,采用2×4的网格布局,每件商品都有自己的图片、价格、评分和描述。但与真实购物网站不同的是,研究团队可以随意调整这些商品的位置、价格、评分,甚至添加"赞助商品"或"编辑推荐"等标签。

研究过程就像是一场精心设计的心理学实验。AI购物助手收到的指令很简单:"帮助某人找到一款好产品,他们没有特殊要求,请根据你的判断选择一件商品购买。"然后,AI会浏览页面,分析每件商品,最终做出购买决定。

为了确保测试的可靠性,研究团队采用了名为"Veni, Vidi, Emi"(来了,看了,买了)的三步流程。AI首先打开浏览器进入购物页面,然后截取页面截图进行分析,最后宣布它的购买决定。这个过程虽然简化了真实购物的复杂性,但完美地捕捉了购物决策的核心环节。

测试涵盖了八个不同的商品类别,从高价值的健身手表和洗衣机,到日常用品如牙膏和卫生纸。这样的选择既包含了消费者经常需要深思熟虑的大件商品,也包含了通常随手购买的日用品,确保测试结果的全面性和代表性。

二、AI购物偏好的惊人差异

当研究团队分析AI们的购物选择时,一个令人意外的现象浮出水面:不同AI模型在面对完全相同的商品时,展现出了截然不同的"品牌忠诚度"。

以健身手表为例,Claude Sonnet 4对Fitbit Inspire表现出明显的偏爱,在45%的情况下选择了这款产品。而GPT-4.1和Gemini 2.5 Flash对同一款产品的选择率仅为25%左右。这种差异就像是三个人去同一家店购物,却总是买回完全不同的商品一样令人困惑。

更引人注目的是市场集中度的问题。在订书机这个商品类别中,几乎所有AI模型都将目光集中在少数几个品牌上,而Amazon Basics和Arrow等品牌几乎被完全忽视。这种现象引发了一个重要担忧:如果大规模部署AI购物助手,可能会导致市场过度集中,一些品牌可能被彻底边缘化,而另一些品牌则可能获得不成比例的市场份额。

这种AI之间的购物偏好差异并非随机现象,而是体现了不同AI模型在训练过程中形成的独特"判断标准"。每个AI都有自己的一套评估商品的逻辑,这套逻辑虽然对用户来说是不可见的,但却深刻地影响着最终的购买决定。

研究还发现,AI的这些偏好相当稳定。在重复测试中,同一个AI模型往往会表现出一致的选择模式,这表明这些偏好并非偶然产生,而是深深植根于AI的"思维模式"中。

三、位置偏见:每个AI都有自己的"风水观"

也许最令人意外的发现是AI购物助手对商品位置的极度敏感。就像人们阅读时会有从左到右、从上到下的习惯一样,每个AI模型都发展出了自己独特的"页面浏览偏好"。

所有测试的AI模型都表现出对页面顶部位置的明显偏爱,这与人类的视觉习惯相似。但在水平方向上,它们的偏好却大相径庭。GPT-4.1强烈偏好页面的最左侧,就像是一个严格按照从左到右顺序阅读的读者。相比之下,Claude Sonnet 4几乎完全忽视左侧第一列,而更偏爱中间两列的位置。最有趣的是Gemini 2.5 Flash,它似乎对第三列情有独钟,而对前两列相对冷淡。

为了直观展示这种位置偏好的威力,研究团队进行了一个简单的测试:将完全相同的产品放在页面的不同位置,观察选择率的变化。结果令人震惊。对于Claude Sonnet 4来说,如果一个产品从页面右下角(选择率仅4.5%)移动到顶部第二或第三列,选择率会激增五倍。更有趣的是,即使移动到左上角这个传统意义上的"黄金位置",选择率的提升也只有一半。

这种位置偏见的影响是巨大的。同一件商品仅仅因为在页面上的位置不同,被AI选中的概率就可能相差数倍。这对于电商平台的商品排列策略,以及商家的广告投放决策都有深远的影响。

更重要的是,这些位置偏好完全不同意味着传统意义上的"最佳位置"可能并不存在。在AI主导的购物时代,电商平台可能需要根据不同AI助手的偏好来设计不同的页面布局,或者开发能够自适应不同AI模型的动态页面系统。

四、AI对营销手段的独特反应

当研究团队测试AI对各种营销标签的反应时,又发现了一系列有趣的现象。与许多人的预期相反,AI购物助手对"赞助商品"标签表现出明显的抗拒情绪。

在测试中,研究人员随机为某些商品添加"赞助"标签,结果发现所有AI模型都降低了对这些商品的选择概率。一个基准选择率为10%的产品,在添加赞助标签后,Claude Sonnet 4的选择率降至8.9%,GPT-4.1降至8.0%,而Gemini 2.5 Flash降至7.9%。这种现象表明AI具有某种"广告识别"能力,并倾向于避免看起来像是付费推广的商品。

相比之下,"编辑推荐"标签产生了截然相反的效果。当一个商品被标记为"编辑推荐"时,AI的选择率大幅提升。同样以基准选择率10%为例,Claude Sonnet 4的选择率飙升至24.3%,GPT-4.1升至19.9%,而Gemini 2.5 Flash更是达到了惊人的42.6%。这说明AI将平台的推荐视为可信的质量信号。

至于"仅剩X件"这类制造稀缺感的标签,AI们的反应相对平淡,甚至略微负面。这可能是因为AI不会像人类那样受到心理压力的驱动,而是更理性地评估商品的实际价值。

在价格、评分和评论数量方面,AI表现出了与人类相似但又有所不同的敏感性。所有AI都偏好价格更低、评分更高、评论更多的商品,这符合理性消费者的行为模式。但它们对这些因素的敏感程度差异很大。例如,当一个商品的评分提高0.1分时,Claude Sonnet 4的选择概率增加54%,GPT-4.1增加103%,而Gemini 2.5 Flash增加60%。

五、当AI商家遇上AI买家

研究的一个特别有趣的部分是探索当卖家也开始使用AI来优化产品描述时会发生什么。这就像是一场AI之间的博弈:一边是负责购买的AI助手,另一边是负责销售的AI代理。

研究团队设计了这样一个实验:首先让AI购买助手在原始商品描述下进行200次购买测试,记录每个商品的市场份额。然后随机选择一个商品,让AI销售代理根据竞争情况和购买数据来优化这个商品的描述。最后,用优化后的描述再进行200次购买测试,观察市场份额的变化。

结果令人震惊。在大约75%的情况下,单次的描述优化并没有产生显著效果。但在剩下的25%的情况下,仅仅一次优化就带来了巨大的市场份额提升。例如,在鼠标垫类别中,一个品牌通过AI优化描述后,在GPT-4.1购物助手那里的市场份额从原来的水平直接跃升了21.8%。

以鼠标垫品牌Aothia为例,AI销售代理分析了竞争对手的成功模式后,建议将原来冗长复杂的产品标题"Aothia皮革桌垫保护垫,鼠标垫,办公桌垫,防滑PU皮革桌垫,笔记本桌垫,防水桌面书写垫,适用于办公室和家庭(黑色,23.6" x 13.7")"优化为更简洁明了的"Aothia大尺寸PU皮革桌垫,防滑防水鼠标垫和桌垫,23.6" × 13.7",办公家用,黑色"。

这个看似微小的改动产生了显著效果。优化后的描述更好地迎合了AI购买助手的"品味",将关键特征如"大尺寸"、"PU皮革"、"防滑防水"等卖点放在了更显眼的位置,同时保持了描述的简洁性。

这种AI对AI的优化效果在不同购买助手之间表现出很大差异。同样是Aothia的描述优化,在Claude Sonnet 4那里只产生了5.3%的市场份额提升,而在Gemini 2.5 Flash那里几乎没有显著效果。这再次证明了不同AI模型之间存在的巨大差异。

六、AI购物助手的"理性"考验

为了测试AI购物助手是否具备基本的购物理性,研究团队设计了一系列看似简单实则关键的测试。这些测试就像是给AI购物助手进行的"智商测验",检验它们能否做出最基本的理性选择。

在指令遵循测试中,研究人员给AI设置了明确的购买条件,比如"请选择一个25美元以下的健身手表"或"请选择粉色的订书机"。在这种情况下,页面上只有一件商品符合要求,理论上AI应该毫无疑问地选择那件商品。令人欣慰的是,最新的AI模型在这类测试中表现优异,几乎没有出现错误。

但在更复杂的理性测试中,情况就不那么乐观了。研究人员构造了这样的场景:八件商品除了价格之外完全相同,其中一件商品的价格明显更低。在这种情况下,任何理性的购买者都应该选择最便宜的那一件。

然而,AI的表现让人意外。当价格差异较小时(比如只便宜1%),即使是最先进的GPT-4.1也有超过9%的失败率。更早期的模型表现更糟,Claude 3.5 Sonnet的失败率甚至超过了63%。只有当价格差异扩大到10%时,AI们的表现才显著改善。

在评分测试中,情况类似。当一个商品的评分比其他商品高出0.1分时,一些AI模型完全无法识别这种差异,而另一些模型的失败率高达71.7%。这意味着在现实购物中,消费者委托AI购买商品时,可能会支付更高的价格或购买到评分更低的产品。

更有趣的是,研究人员分析了AI在这些测试中的"思维过程"。当AI做出错误选择时,它们的解释大致分为三类:第一类是感知限制,AI声称无法区分商品之间的细微差异;第二类是无理由的次优选择,AI识别出了最佳选择但仍然选择了其他商品,而且没有给出解释;第三类是有理由的拒绝,AI承认某个商品更好,但给出了不选择它的理由,比如认为价格差异是"显示错误"或"临时折扣",或者声称这种差异"不重要"。

七、模型更新带来的市场震荡

研究过程中发生了一个意外但极有价值的插曲。谷歌DeepMind在研究进行期间将Gemini 2.5 Flash Preview更新为Gemini 2.5 Flash,这为研究团队提供了观察模型更新如何影响AI购物行为的绝佳机会。

更新前后的对比结果令人震惊。仅仅是一次模型更新,就导致了整个"市场格局"的重新洗牌。在办公台灯类别中,最受欢迎的产品从TORCHSTAR变成了SUNMORY;在卫生纸类别中,市场领导者从Cottonelle变成了Angel Soft。一些产品的市场份额发生了剧烈变化,比如Fitbit Versa的份额下降了25.1%,而Kenmore洗衣机的份额下降了25.6%。

位置偏好也发生了根本性改变。更新前的Gemini 2.5 Flash Preview对页面顶部位置表现出负面偏好,而更新后的版本则转为正面偏好。在列偏好方面,两个版本都不太喜欢前两列,但对后两列的偏好程度不同:Preview版本对第三、四列没有明显偏好差异,而正式版本明显偏爱第三列。

这种因模型更新导致的购物行为变化就像是消费者群体的集体"性格转变"。对于电商平台来说,这意味着他们需要持续监控和适应这些变化。对于品牌商家来说,一次看似微小的AI模型更新可能就会显著影响他们的销售表现。

更重要的是,这种变化的不可预测性给整个电商生态系统带来了新的不确定性。品牌可能需要开发新的策略来应对这种"AI购物偏好漂移",而平台也可能需要考虑如何在AI模型更新时保持一定的稳定性。

八、价格权衡的AI逻辑

为了更深入地理解AI购物助手的决策逻辑,研究团队计算了不同因素之间的"价格等价交换率"。简单来说,就是看AI愿意为某个优势支付多少额外费用。

结果显示,位置的价值在AI眼中极其重要。对于Claude Sonnet 4和GPT-4.1来说,如果一个商品能从第二排移到第一排,商家可以将价格提高一倍而不影响被选中的概率。相比之下,Gemini 2.5 Flash对位置的敏感度较低,只愿意为顶部位置支付17%的价格溢价。

"编辑推荐"标签的价值更是惊人。Claude Sonnet 4愿意为带有这个标签的商品支付92%的价格溢价,GPT-4.1愿意支付65%,而Gemini 2.5 Flash的溢价意愿高达138%。这意味着获得平台推荐对商家来说具有巨大的经济价值。

在产品属性方面,AI对评分的重视程度超出预期。当一个产品的评分提高0.1分时,Claude Sonnet 4愿意为此支付33%的价格溢价,GPT-4.1愿意支付67%,而Gemini 2.5 Flash愿意支付28%。相比之下,评论数量翻倍的价值相对较低,三个AI模型的溢价意愿分别为19%、37%和17%。

这些数据为商家提供了宝贵的定价参考。在AI主导的购物环境中,传统的价格策略可能需要根据这些新的"价值等式"进行调整。

九、AI购物时代的生态重构

随着AI购物助手逐渐普及,整个电商生态系统正面临着深刻的变革。这种变革不仅仅是技术层面的,更是商业模式和竞争规则的根本性改变。

对于电商平台来说,传统的商品排序和推荐逻辑可能需要完全重写。由于不同AI模型存在截然不同的位置偏好,平台可能需要开发AI模型特定的页面布局,或者实现能够自适应不同AI助手的动态页面系统。更进一步,平台可能需要为不同的AI助手提供专门的API接口,而不是让它们通过传统的网页界面进行购物。

传统的货币化手段也面临挑战。研究显示AI对赞助商品标签的负面反应意味着传统的付费推广模式可能效果不佳。相反,平台的"编辑推荐"功能可能成为新的价值源泉。平台可能会开始提供"AI购物优化"服务,帮助商家调整产品描述和展示方式以迎合不同AI助手的偏好。

对于品牌和商家而言,适应AI购物时代需要全新的策略思维。商品描述的重要性空前提升,因为这直接影响AI的判断。同时,由于不同AI模型偏好差异巨大,商家可能需要针对不同的AI助手制定不同的营销策略,就像现在需要针对不同的搜索引擎进行SEO优化一样。

一个全新的服务行业正在兴起:AI购物优化服务。就像现在有专门的SEO公司一样,未来可能会出现专门帮助商家优化AI购物体验的公司。这些公司需要深度了解各种AI模型的偏好模式,并能够实时跟踪和适应这些模式的变化。

消费者也需要做好心理准备。虽然AI购物助手能够大大减少选择的时间成本,但研究显示这些AI在基本理性测试中仍存在缺陷。消费者需要了解自己使用的AI助手的特点和局限性,在重要购买决定上可能仍需要人工干预和确认。

十、监管挑战与社会影响

AI购物助手的普及还引发了一系列需要深思的监管和社会问题。当购买决定越来越多地由AI代理时,传统的消费者保护框架可能需要重新审视和调整。

市场集中度是一个关键担忧。研究显示某些AI模型倾向于将选择集中在少数品牌上,完全忽视其他选项。如果这种模式在现实中大规模复制,可能会导致市场过度集中,损害竞争和消费者选择。监管机构可能需要制定新的规则来确保AI购物助手不会无意中创造垄断或寡头垄断局面。

透明度也是一个重要议题。目前,AI购物助手的决策过程对用户来说基本上是个"黑匣子"。消费者无法了解AI为什么选择某个产品而不是另一个,这可能涉及知情同意的问题。监管机构可能需要要求AI购物助手提供某种形式的"决策解释",让用户理解选择背后的逻辑。

数据隐私和安全也面临新挑战。AI购物助手需要访问用户的购买历史、偏好信息等敏感数据才能提供个性化服务。如何在提供便利服务和保护用户隐私之间找到平衡,将是一个持续的挑战。

AI模型更新带来的市场波动性也需要关注。研究显示单次模型更新就能够重新洗牌整个市场格局,这种不可预测性可能对商家和整个供应链造成巨大冲击。监管机构可能需要考虑是否需要对重大AI模型更新实施某种形式的"影响评估"或"渐进部署"要求。

另一个值得关注的问题是AI购物助手可能会放大现有的社会偏见。如果训练数据中存在某种偏见,这种偏见可能会在大规模购买决定中被无限放大,进一步加剧社会不平等。

结论

归根结底,这项研究为我们揭示了一个既令人兴奋又充满挑战的未来图景。AI购物助手确实能够为消费者提供便利,减少在无数选择面前的困惑和时间消耗。但同时,这些AI助手也表现出了与人类截然不同的"个性"和偏好,它们的决策逻辑有时甚至缺乏基本的理性。

最有趣的发现是,不同AI模型之间的巨大差异意味着未来的电商世界可能会变得更加多元化和复杂。就像现在人们会选择不同的搜索引擎或社交媒体平台一样,未来消费者可能需要根据自己的购物偏好选择不同的AI购物助手。一个偏爱价格优势的消费者可能会选择对价格更敏感的AI,而注重品质的消费者则可能选择更重视评分和评论的AI。

这种变化也为商家带来了新的机遇和挑战。适应AI购物时代需要全新的思维方式和策略工具,但同时也可能为那些能够快速适应的商家创造新的竞争优势。毕竟,在一个AI助手越来越多地代表消费者做出选择的世界里,理解和迎合这些AI的"品味"可能比传统的市场营销更加重要。

随着技术的不断进步,我们很可能会看到AI购物助手变得更加智能和可靠。但这项研究提醒我们,即使在AI变得更加先进的同时,我们仍需要保持警觉,确保这些系统真正服务于消费者的最佳利益,而不是无意中创造新的问题或加剧现有的不平等。

说到底,AI购物助手的崛起不仅仅是一个技术问题,更是一个关乎我们如何在数字时代组织经济活动的社会问题。如何在拥抱这种便利的同时避免其潜在风险,将是我们在未来几年需要共同面对的挑战。有兴趣深入了解这些发现的读者可以通过arXiv:2508.02630v1搜索查阅这篇完整的研究论文。

Q&A

Q1:ACES是什么?它是如何测试AI购物助手的?

A:ACES是智能电商模拟器,由研究团队开发的AI购物测试环境。它包含一个可控的模拟电商网站,能够随意调整商品位置、价格、评分等参数,让AI购物助手在其中进行购买选择,从而观察和分析AI的购物行为模式。

Q2:不同AI购物助手在购买选择上差异有多大?

A:差异非常显著。以健身手表为例,Claude Sonnet 4选择Fitbit Inspire的概率为45%,而GPT-4.1和Gemini 2.5 Flash只有25%左右。在订书机类别中,一些品牌完全被某些AI忽视,市场份额为零,显示出AI之间存在巨大的"品牌偏好"差异。

Q3:AI购物助手会犯哪些购物错误?

A:主要有三类错误:无法识别细微价格差异(如便宜1%的商品,GPT-4.1仍有9%概率选错)、无法区分相近评分(0.1分差异时某些AI失败率高达71.7%)、以及会将明显优势误判为"显示错误"或"临时折扣"而故意避开最优选择。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-