这项由Flexify.AI公司的Pritish Yuvraj和Siva Devarakonda领导的研究发表于2025年9月,论文编号为arXiv:2509.18400v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
在全球贸易的庞大机器中,隐藏着一套极其复杂但又至关重要的密码系统。每当你在网上购买来自海外的商品时,无论是一件T恤、一台电脑还是一包咖啡豆,这些商品都必须被分配一个特殊的十位数字编码,就像每个人都有身份证号码一样。这套编码系统被称为协调关税表编码,简称HTS编码。
这套编码系统就像一本超级复杂的商品字典,收录了世界上几乎所有可以想象得到的商品。从最基础的农产品到最先进的半导体芯片,每一种商品都有其专属的数字身份。然而,这本"字典"厚达17000多页,即使是经验丰富的贸易专家也经常被其复杂性所困扰。
当商品分类出现错误时,后果往往十分严重。想象一下,如果你寄给美国朋友的礼物因为编码错误而被海关扣留,或者一批价值数百万美元的工业设备因为分类问题而无法通关。这并非危言耸听,而是经常发生的现实。2025年,包括德国、印度在内的超过30个国家的邮政服务暂停了向美国的包裹寄送,原因就是无法准确分配这些神秘的HTS编码。
研究团队意识到,如果能够训练人工智能来理解和掌握这套复杂的编码系统,就能极大地缓解全球贸易中的这一关键瓶颈。他们开发了一个名为ATLAS的AI模型,这个模型基于LLaMA-3.3-70B架构,专门用于解决HTS编码分类问题。
整个研究过程就像训练一位超级海关专家。研究团队首先从美国海关裁决在线搜索系统中收集了18731个真实的贸易争议案例。这些案例就像是海关专家们多年来积累的经验总结,每一个案例都详细记录了某种商品应该被分配什么样的编码,以及做出这种判断的理由。
在数据收集阶段,研究团队开发了一个自动化的网络爬虫程序,就像派遣一个不知疲倦的研究助手去翻阅所有的海关档案。这个程序系统性地扫描了海关裁决系统中的每一份文档,将原本散落在数千个网页中的信息整理成了一个结构化的数据库。经过筛选和清理后,最终的数据集涵盖了2992种不同的HTS编码,跨越了从农业产品到高科技设备的广泛商品类别。
为了让AI能够理解这些复杂的法律文档,研究团队需要将原始的海关裁决书转换成机器学习可以处理的格式。这些裁决书通常是冗长的官方信函,充满了法律术语和技术细节。研究团队使用GPT-4o-mini模型来完成这一转换工作,就像雇佣一位翻译将艰深的法律文档改写成清晰的指导手册。
每个原始案例都被重新组织成一个标准的问答格式。输入部分包含了商品的详细描述,输出部分则包含正确的HTS编码以及详细的推理过程。这种格式确保AI模型不仅要学会给出正确答案,还要能够解释其推理逻辑,就像一位合格的海关专家需要为自己的判断提供充分理由一样。
研究团队将收集到的数据分成了三个部分:18254个案例用于训练模型,200个案例用于验证模型性能,另外200个案例作为最终测试集。这种分割方式确保了模型评估的公正性,避免了"考试作弊"的情况。
在模型训练方面,研究团队选择了LLaMA-3.3-70B作为基础架构。这个选择主要基于两个考虑:首先是预算限制,训练多个大型模型需要巨大的计算资源投入;其次,相比于专家混合模型,密集架构更容易部署和维护,降低了后续研究者的技术门槛。
训练过程采用了监督微调方法,这就像是让一位有基础知识的学生专门学习海关分类这门特殊技能。模型需要根据输入的商品描述,预测正确的HTS编码并提供推理过程。训练使用了AdamW优化器,学习率设定为0.0000001,训练进行了5个周期,大约1400个训练步骤。
为了应对70亿参数模型的巨大内存需求,研究团队使用了16张A100-80GB显卡进行分布式训练,采用了bf16精度和梯度累积技术来模拟64个序列的批处理大小。训练损失曲线显示,模型在前200个步骤中快速改进,随后趋于稳定,没有出现过拟合现象。
在评估阶段,研究团队设计了一个层次化的评估体系来全面衡量模型性能。由于HTS编码具有层次结构的特点,前6位数字在全球范围内是统一的,而后4位数字是各国特有的扩展,因此评估也相应地分为不同层次。
完全正确分类要求所有10位数字都精确匹配,这意味着模型输出的编码可以直接用于美国海关通关。部分正确分类要求前6位数字匹配,这反映了模型对全球标准化部分的掌握程度。此外,还计算了平均数字级别准确率,即预测正确的数字位数的平均值,这能够捕捉到细粒度的改进。
ATLAS模型在测试集上的表现令人印象深刻。在完全正确分类方面,ATLAS达到了40%的准确率,这意味着200个测试样本中有80个获得了完全正确的10位编码。相比之下,GPT-5-Thinking的准确率为25%,Gemini-2.5-Pro-Thinking仅为13.5%,其他开源模型的表现更是不超过3%。
在部分正确分类方面,ATLAS达到了57.5%的准确率,略高于GPT-5-Thinking的55.5%,但明显优于其他所有模型。这表明ATLAS不仅在美国特定的分类上表现优异,在全球通用的分类标准上也有良好的泛化能力。
在平均数字级别准确率方面,ATLAS达到了6.3位正确,这意味着即使在无法完全正确分类的情况下,模型仍能提供有价值的部分信息。相比之下,GPT-5-Thinking为5.61位,其他模型普遍在3位左右。
除了准确性优势,ATLAS在成本效率方面也表现出色。使用闭源API模型如GPT-5-Thinking和Gemini-2.5-Pro-Thinking进行大规模分类会产生巨大的成本,特别是当需要处理数千个分类任务时。研究团队计算了分类1000个产品描述的成本,假设标准上下文长度约为1000个输入token和200个输出token。
GPT-5-Thinking的成本约为3.30美元,Gemini-2.5-Pro-Thinking约为5.50美元,而ATLAS通过自托管方式的成本仅约为0.70美元。这意味着ATLAS比GPT-5便宜近5倍,比Gemini-2.5-Pro便宜近8倍。这种成本优势在大规模商业应用中尤为重要。
更重要的是,ATLAS支持私有部署,这对于涉及敏感贸易数据的高风险行业至关重要。汽车、工业、半导体等行业的公司往往不愿意将其产品信息发送到第三方API,而自托管的ATLAS可以确保数据永远不离开安全环境。
研究团队也诚实地指出了当前工作的局限性。尽管ATLAS在现有模型中表现最佳,但40%的10位准确率仍然意味着有很大的改进空间。这个基准测试的设立本身就表明了HTS分类是一个极具挑战性的任务,需要更多的研究投入。
为了推动这一领域的发展,研究团队将数据集和模型都开源发布在Hugging Face平台上。这种开放态度有助于建立一个研究社区,共同解决这一重要的全球贸易问题。研究团队希望未来的工作能够在检索增强、推理优化和对齐方法等方向上取得突破。
检索增强是一个特别有前景的方向。考虑到HTS文档本身长达17000页,如果能够将相关的分类规则和案例实时检索出来作为模型的参考,可能会显著提高分类准确性。这就像给AI配备一个随时可查阅的专业图书馆。
对比学习也值得探索,特别是针对那些容易混淆的相似类别。例如,如何区分部分制造的半导体晶圆和完全制造的半导体芯片,这种细微差别往往决定了完全不同的关税税率。通过对比学习,模型可能会更好地掌握这些关键的决策边界。
直接偏好优化是另一个有趣的方向。目前的训练只是简单地模仿人类专家的分类决策,但如果能够让模型学会偏好正确的分类而主动避免错误的分类,可能会进一步提高性能。这需要构建结构化的偏好数据,比如正确的10位编码应该优于接近但错误的编码。
当我们放眼全球贸易的大图景时,ATLAS的意义就显得更加重要。每年有数万亿美元的商品在全球流通,而HTS分类是这个庞大系统的基础设施之一。分类错误不仅会导致通关延误,还可能引发贸易争端和供应链中断。
随着全球贸易规则的不断变化和新产品的持续涌现,对准确、高效的自动化分类系统的需求只会越来越大。ATLAS虽然只是这个方向上的第一步,但它证明了AI技术在解决复杂监管问题方面的潜力。
这项研究的发布时机也颇为重要。在当前全球贸易面临诸多挑战的背景下,任何能够简化和自动化贸易流程的技术都具有重要价值。特别是对于中小企业而言,昂贵的贸易咨询服务往往是难以承受的负担,而像ATLAS这样的开源工具可能会大大降低参与全球贸易的门槛。
从技术角度来看,这项研究也为领域特定的大语言模型应用提供了有价值的案例研究。它展示了如何将通用的预训练模型适应到特定的专业任务上,以及如何构建适合的数据集和评估体系。这些经验对于其他希望将AI应用到特定监管或合规领域的研究者和从业者都有参考价值。
尽管ATLAS取得了显著的性能提升,但研究团队也提到了几个值得进一步探索的方向。模型规模的研究是其中之一,评估更小的LLaMA变体可以帮助理解准确性、成本和可部署性之间的权衡。这对于资源有限的组织或边缘设备部署场景特别重要。
另一个有趣的方向是多语言扩展。虽然当前的研究集中在美国的HTS系统上,但其他国家也有类似的分类需求。如果能够扩展到支持多种语言和多个国家的分类系统,ATLAS的影响力将会更加广泛。
说到底,这项研究解决的是一个看似技术性但实际上关系到每个人日常生活的问题。当你在网上购买进口商品时,当企业向海外拓展市场时,当各国政府制定贸易政策时,准确的商品分类都是不可或缺的基础。ATLAS虽然还不完美,但它开创了一个新的研究方向,展示了AI技术在解决现实世界复杂问题方面的巨大潜力。
归根结底,这项研究的真正价值不仅在于它所取得的技术突破,更在于它为解决全球贸易中的一个关键痛点提供了新的思路。随着更多研究者加入这一领域,随着技术的不断改进,我们有理由相信,未来的全球贸易将会变得更加顺畅和高效。有兴趣深入了解这项开创性研究的读者,可以通过论文编号arXiv:2509.18400v1查阅完整的技术细节和实验结果。
Q&A
Q1:ATLAS模型是什么?它能解决什么问题?
A:ATLAS是由Flexify.AI开发的专门用于HTS关税编码分类的AI模型,基于LLaMA-3.3-70B架构。它能够自动为进出口商品分配正确的10位HTS编码,解决了全球贸易中商品分类困难、容易出错的关键问题。目前ATLAS在完全正确分类上达到40%准确率,比GPT-5高出15个百分点。
Q2:HTS编码分类为什么这么重要?分类错误会有什么后果?
A:HTS编码就像商品的身份证,每个进出口商品都必须有正确的10位编码才能通关。分类错误会导致货物被海关扣留、通关延误,甚至引发贸易争端。2025年就有超过30个国家因为无法准确分配HTS编码而暂停了向美国的邮政服务,影响了全球贸易流通。
Q3:ATLAS相比其他AI模型有什么优势?普通企业能使用吗?
A:ATLAS不仅准确率更高,成本也更低廉,比GPT-5便宜近5倍。更重要的是它支持私有部署,企业可以自己托管而不用担心敏感贸易数据泄露。研究团队已经将模型开源发布,这意味着企业可以免费获取并根据自己的需求进行定制化部署。
好文章,需要你的鼓励
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。
上海AI实验室团队发现自回归图像生成模型存在局部依赖、语义不一致和空间不变性缺失三大问题,提出ST-AR训练方法。该方法通过掩码注意力、跨步骤对比学习和跨视角对比学习,让AI"先理解再生成"。实验显示,ST-AR将LlamaGen模型的图像理解准确率提升一倍以上,图像生成质量提升42-49%,为构建更智能的多模态AI系统开辟新路径。