微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 香港城市大学和阿里巴巴集团联合出击:让AI学会处理模糊不清的问题,一个答案根本不够用!

香港城市大学和阿里巴巴集团联合出击:让AI学会处理模糊不清的问题,一个答案根本不够用!

2025-11-11 14:00
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-11-11 14:00 科技行者

在我们的日常生活中,很多问题其实并没有标准答案。比如问"今天天气怎么样?",有人可能回答"挺好的,阳光明媚",也有人可能说"不错,微风习习"。这两个答案都对,只是关注点不同。然而,目前的人工智能系统在面对这类问题时往往表现得过于"死板"——它们总是试图找到一个"标准答案",就像考试时只认可标准答案一样。

最近,由香港城市大学的张凤机、阿里巴巴集团的牛欣耀、应程阳等研究人员组成的团队发表了一项突破性研究,这项研究于2025年10月发表在预印本论文平台上,题为"A?SEARCH: AMBIGUITY-AWARE QUESTION ANSWERING WITH REINFORCEMENT LEARNING"。这个研究团队意识到了AI在处理模糊问题时的局限性,并开发了一个名为A?SEARCH的全新系统来解决这个问题。

这就好比训练一个新手厨师。传统的AI就像只会按照固定菜谱做菜的厨师,遇到"做一道好吃的菜"这样的要求时,它只会做出一种菜。而A?SEARCH就像一个经验丰富的大厨,面对同样的要求时,能够根据不同的理解提供多种选择——可能是香辣川菜,也可能是清淡粤菜,每一种都很棒。

研究团队发现了一个令人惊讶的现象:在他们分析的数据库中,有超过四分之一的问题实际上都有多个合理答案。这意味着我们一直以来对AI的训练方式可能存在根本性问题——我们总是告诉AI "这个答案是对的,其他都是错的",但现实世界远比这复杂得多。

一、发现问题:AI的"独眼龙"困境

让我们先来看看传统AI系统面临的困境。现在的问答系统就像一个只有一只眼睛的人,只能从一个角度看问题。当遇到像"伊斯兰哲学中最具影响力的人物是谁?"这样的问题时,不同的学者可能会给出不同但都正确的答案。有的会说是阿维森纳(Avicenna),因为他被誉为"最伟大的思想家之一";有的会说是穆拉·萨德拉(Mulla Sadra),因为他被认为是"过去四百年中穆斯林世界最重要的哲学家"。

问题在于,现有的AI训练数据通常只标注一个"正确答案",这就像告诉学生"只有这一种解题方法是对的",忽略了其他同样有效的方法。当AI在训练过程中遇到那些提供"非标准答案"的情况时,系统会认为这些答案是错误的,从而产生误导性的学习信号。

研究团队通过深入分析发现,在MuSiQue这个复杂问答数据库中,有27.6%的问题都存在多个有效答案。在其他数据库中,这个比例也相当可观:2Wiki中有7.2%,而NQ中有19.3%。这意味着我们一直在用一种过于简化的方式来训练AI系统。

二、解决方案:A?SEARCH的"全景视角"

面对这个问题,研究团队开发了A?SEARCH系统。这个名字中的"A?"代表"Ambiguity-Aware",意思是"具备模糊感知能力"。如果把传统AI比作只会死记硬背的学生,那么A?SEARCH就像一个会独立思考的学生,不仅能找到标准答案,还能发现其他同样合理的解答。

A?SEARCH的工作方式可以用这样一个比喻来理解:假设你要找到城市里最好的餐厅。传统AI会告诉你"XX餐厅是最好的",然后就结束了。而A?SEARCH则会像一个资深美食家,它会先派出多个"美食探员"去不同的地方寻找,然后收集各种信息,最后告诉你"根据不同的标准,这几家餐厅都很棒——如果你喜欢川菜,推荐A餐厅;如果偏爱粤菜,B餐厅更合适"。

具体来说,A?SEARCH采用了四个关键步骤来发现多个合理答案。第一步是"广撒网"——系统会让多个AI模型同时回答同一个问题,就像让几个不同背景的专家同时给意见。第二步是"初筛"——过滤掉明显错误或重复的答案。第三步是最关键的"验证"——系统会仔细检查每个答案是否有足够的证据支持。第四步是"归类整理"——将意思相同但表达不同的答案归为一类。

三、训练过程:让AI学会"换位思考"

训练A?SEARCH就像教会一个学生从多个角度思考问题。传统的AI训练方式就像填鸭式教育,只要求学生记住标准答案。而A?SEARCH的训练过程更像启发式教育,鼓励系统探索不同的可能性。

在训练数据的准备过程中,研究团队面临着一个巨大挑战:如何自动识别那些有多个合理答案的问题?他们设计了一个巧妙的方法,就像组建一个"专家评审团"。这个评审团由多个高性能AI模型组成,包括ReSearch、Search-R1等"明星选手"。每个模型都会对同一个问题给出自己的答案,然后系统会分析这些答案的质量。

为了确保答案的可靠性,研究团队还设计了一个严格的"证据检查"机制。这就像法庭上的证据审查,每个答案都必须有充分的证据支持才能被接受。他们使用了四个不同的AI"法官"来评估每个答案,只有当大多数"法官"都认为答案有充分证据支持时,这个答案才会被采用。

经过这个严格的筛选过程,研究团队从将近400万个候选答案中筛选出了约2万个高质量的多答案样本。这个过程的严格程度可以用这样一个比例来说明:最终保留的答案只占原始数据的0.5%左右,可见质量控制的严格。

四、技术创新:AnsF1奖励机制的妙用

A?SEARCH的另一个重要创新是采用了一种叫做AnsF1的奖励机制。如果把AI的学习过程比作培养一个好学生,那么传统的奖励机制就像只奖励"答对标准答案"的学生,而AnsF1机制则会综合考虑学生答案的"覆盖面"和"准确性"。

这个机制的工作原理很有趣。假设一个问题有三个正确答案A、B、C,学生回答了A、B、D三个答案。传统系统可能会说"你答错了一个(D是错的)",主要关注错误。而AnsF1机制会更全面地评价:"你答对了两个(A和B),覆盖了三分之二的正确答案,虽然多答了一个错误答案,但整体表现不错。"

这种奖励机制鼓励AI系统在保证准确性的同时,尽可能发现更多的合理答案。就像鼓励学生在保证基本正确的前提下,多思考、多探索不同的解题思路。

研究团队在训练过程中还引入了一种叫做GRPO(Group Relative Policy Optimization)的高级训练方法。这就像组织学生进行小组学习,让系统通过比较不同答案的质量来不断改进自己的表现。

五、实验验证:全方位的性能提升

为了验证A?SEARCH的效果,研究团队进行了大规模的实验测试。他们选择了八个不同的问答数据库进行测试,就像让一个学生参加多个不同科目的考试,全面检验其能力。

测试结果令人印象深刻。在复杂的多步推理问题上,A?SEARCH-7B版本(拥有70亿参数的模型)仅用一次回答就达到了48.4%的平均得分,而需要多次尝试的传统方法ReSearch-32B(拥有320亿参数)的得分只有46.2%。这就像一个七年级学生一次性解决了问题,而一个高中生需要多次尝试才能达到相似的效果。

更令人惊喜的是,即使是较小规模的A?SEARCH-3B版本(拥有30亿参数),也能达到43.1%的得分,表现相当出色。这证明了A?SEARCH的方法不仅有效,而且效率很高,不需要巨大的计算资源就能获得好结果。

在专门测试模糊问题处理能力的AmbigQA数据库上,A?SEARCH的表现更是出色。虽然它没有专门在这个数据库上进行训练,但却超越了那些专门针对该数据库优化的系统。这就像一个从没专门练习过某种题型的学生,却在考试中表现得比那些专门训练过的学生还要好。

六、实际案例:看A?SEARCH如何处理复杂问题

让我们看几个A?SEARCH处理实际问题的例子,来更好地理解它的能力。

当面对"谁说伊斯兰哲学中最具影响力的人物是最伟大的思想家之一?"这个问题时,A?SEARCH能够识别出这个问题存在多重解释的可能性。它发现乔治·萨顿(George Sarton)曾称阿维森纳为"历史上最伟大的思想家和医学学者之一",同时奥利弗·利曼(Oliver Leaman)也认为穆拉·萨德拉是"过去四百年中穆斯林世界最重要的哲学家"。传统AI可能只会给出其中一个答案,而A?SEARCH能同时提供两个都有充分证据支持的答案。

另一个有趣的例子是关于地理和历史的问题:"拿骚的尼古劳斯·威廉王子的母亲来自哪个国家?"这个问题的复杂之处在于历史的变迁。A?SEARCH发现,从严格的历史角度看,答案是"符腾堡",因为当时符腾堡还是一个独立的王国。但从现代地理角度看,答案是"德国",因为符腾堡后来并入了德国。传统AI会被训练成只认可其中一个答案,而A?SEARCH能够理解并提供两个都合理的答案。

这些例子展示了A?SEARCH的核心优势:它不是简单地增加答案数量,而是真正理解了问题的多面性,能够提供有意义的、经过验证的多重视角。

七、技术细节:让普通人也能理解的工作原理

虽然A?SEARCH的底层技术很复杂,但其核心思想可以用一个简单的类比来理解。想象你是一个图书馆管理员,需要帮助读者找到关于某个话题的最佳资料。

传统的AI就像一个只记得一本"标准教科书"的管理员,无论读者问什么,都只推荐那一本书。而A?SEARCH则像一个经验丰富的管理员,会根据读者的具体需求,从多个角度推荐相关资料。如果读者问的是一个可能有多种理解的话题,这个管理员会说:"根据你的问题,我推荐这几本书,因为它们从不同角度都很好地回答了你的问题。"

在技术实现上,A?SEARCH使用了强化学习的方法,这就像通过不断练习来提升技能。系统会生成很多可能的答案,然后通过反馈机制学习哪些答案更好。这个过程就像学习骑自行车,通过不断尝试和调整,最终掌握平衡技巧。

系统还使用了一种叫做"轨迹采样"的技术。这就像派出多个探险队去探索同一个未知区域,每个探险队可能会发现不同的路径和景观,最后汇总所有发现,得到对这个区域的全面了解。

八、未来影响:改变我们与AI互动的方式

A?SEARCH的意义远远超出了技术层面的改进。它可能会从根本上改变我们与AI系统的互动方式。

在教育领域,这种技术能够帮助开发更好的智能辅导系统。当学生提出一个开放性问题时,系统不会简单地给出一个标准答案,而是会像一位经验丰富的老师一样,提供多个角度的解释和理解。这种方式更符合真正的学习过程,有助于培养学生的批判性思维。

在客户服务方面,这种技术能够让AI助手更好地理解客户的多样化需求。当客户询问"如何解决这个问题"时,系统能够提供多种可能的解决方案,而不是机械地给出单一回复。

对于研究和知识工作者来说,A?SEARCH类型的系统能够成为更好的研究助手。它不会局限于单一的观点或方法,而是能够从多个角度分析问题,为用户提供更全面的信息和见解。

更重要的是,这种技术认识到了现实世界的复杂性和多样性。很多重要的问题确实没有唯一的"正确答案",而需要从多个维度去理解和回应。A?SEARCH代表了AI系统向更加nuanced和智能的方向发展。

九、挑战与限制:技术发展的现实考量

当然,A?SEARCH也面临一些挑战和限制。首先是计算成本的问题。生成和验证多个答案需要更多的计算资源,这就像同时雇佣多个顾问而不是一个顾问,成本自然会增加。

另一个挑战是如何平衡答案的数量和质量。提供太多答案可能会让用户感到困惑,就像在餐厅面对过多选择时的"选择困难症"。系统需要学会在提供全面信息和保持简洁易懂之间找到平衡。

还有一个重要问题是如何确保所提供的多个答案都是真正有价值的,而不是为了多样性而多样性。这需要系统具备很强的判断能力,能够区分真正的多元观点和无意义的重复或错误信息。

此外,不同文化和背景的人对同一个问题可能有不同的理解框架,如何让系统能够识别并尊重这些差异,也是一个需要持续关注的问题。

十、研究方法的创新:自动化发现多重真相

A?SEARCH最令人印象深刻的创新之一是它完全自动化的多答案发现机制。传统的方法需要人工标注专家花费大量时间来识别和标记哪些问题有多个正确答案,这个过程既昂贵又耗时。

研究团队设计的自动化流程就像建立了一条"答案检验的生产线"。这条生产线的第一站是"答案收集站",多个AI模型simultaneously工作,每个都对同一问题提供自己的见解。第二站是"质量筛选站",自动过滤掉明显不合理或重复的答案。第三站是"证据验证站",这里最多可以有四个AI"审查员"同时工作,仔细检查每个答案是否有充分的证据支持。最后一站是"分类整合站",将语义相同但表达不同的答案合并。

这个自动化过程的效率惊人。从最初的近400万个候选答案中,经过层层筛选,最终保留了约2万个高质量的多答案样本。这意味着系统能够以99.5%的精度过滤掉低质量内容,同时保留真正有价值的多元化观点。

研究团队还发现了一个有趣的现象:不同类型的问题具有不同的"模糊性倾向"。复杂的多步推理问题(如MuSiQue数据库中的问题)有27.6%存在多个合理答案,而相对简单的问题这个比例较低。这个发现帮助我们理解了现实世界问题的复杂性分布,为未来的AI系统设计提供了重要参考。

说到底,A?SEARCH代表了人工智能发展的一个重要转折点。它不再满足于找到"一个正确答案",而是努力理解问题的多面性,就像从"独眼龙"进化成了"复眼昆虫",能够同时从多个角度观察和理解世界。

这种技术进步的意义在于,它让AI系统变得更加贴近人类思维的复杂性。在现实生活中,很多重要问题确实没有标准答案,需要我们从多个角度去思考和理解。A?SEARCH的出现,标志着AI系统正在从简单的"问答机器"向真正的"智能思考伙伴"转变。

对于普通用户来说,这意味着未来的AI助手会变得更加实用和智能。它们不会再给出生硬的标准回复,而是能够理解问题的复杂性,提供更加全面和有用的建议。这种转变将让人工智能真正成为我们思考和决策过程中的有力助手,而不仅仅是信息查询工具。

当然,这项技术还处于发展初期,距离广泛应用还有一段路要走。但是A?SEARCH的成功展示了一种新的可能性:AI系统可以学会处理现实世界的复杂性和模糊性,这为构建更加智能、更加有用的人工智能系统开辟了新的道路。研究团队已经将相关代码和数据公开发布,有兴趣的研究者可以通过GitHub平台访问完整的技术实现,这将有助于推动整个领域的进步。

Q&A

Q1:A?SEARCH和传统AI问答系统有什么不同?

A:传统AI问答系统就像只会死记硬背标准答案的学生,每个问题只给一个答案。而A?SEARCH更像会独立思考的学生,能识别出一个问题可能有多个合理答案,并同时提供这些答案。比如问"最具影响力的伊斯兰哲学家是谁?",传统系统只会说一个名字,A?SEARCH会同时提到阿维森纳和穆拉·萨德拉,因为不同学者对此有不同但都合理的观点。

Q2:A?SEARCH是如何自动发现多个正确答案的?

A:A?SEARCH采用四步自动化流程,就像建立了一条答案检验的生产线。首先让多个AI模型同时回答问题,收集不同观点;然后过滤明显错误的答案;接着用四个AI"审查员"检查每个答案是否有充分证据支持;最后将意思相同但表达不同的答案归类整合。这个过程能从400万候选答案中筛选出2万个高质量的多元化答案。

Q3:A?SEARCH的技术优势体现在哪里?

A:A?SEARCH的最大优势是效率和准确性的平衡。它仅用一次回答就能达到传统方法多次尝试的效果,70亿参数的A?SEARCH-7B版本得分48.4%,超越了需要多次尝试的320亿参数ReSearch-32B的46.2%得分。而且它采用了AnsF1奖励机制,既鼓励发现更多正确答案,又保证答案质量,让AI学会在准确性和全面性之间找到最佳平衡。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-