这项由中国科学院软件研究所中文信息处理实验室的李卓群等研究者联合阿里巴巴通义实验室共同完成的研究成果,发表于2025年2月,论文题目为《DeepSolution: Boosting Complex Engineering Solution Design via Tree-based Exploration and Bi-point Thinking》。对这项研究感兴趣的读者可以通过GitHub项目地址https://github.com/Li-Z-Q/DeepSolution获取更多详细信息。
设想一下这样的场景:一位工程师需要在经常发生地震、土壤会因为水分而膨胀、每年降雨量高达3000毫米的恶劣环境中设计一座医院。这听起来就像是在变化莫测的沼泽地上建造一座坚固城堡,需要同时应对地面摇晃、土壤膨胀和持续的暴雨冲刷。传统上,这样的复杂工程设计完全依赖资深专家的经验和知识,他们需要翻阅大量技术资料,仔细分析每一个约束条件,然后设计出既安全又高效的解决方案。这个过程不仅耗时费力,还需要极其丰富的专业经验。
然而,随着人工智能技术的发展,研究团队开始思考:能否让计算机系统也具备这样的工程设计能力?就像给工程师配备一个极其博学的智能助手,它不仅掌握海量的工程知识,还能像人类专家一样进行复杂的推理和设计。这正是本项研究的核心动机。
研究团队发现,现有的人工智能系统在处理复杂工程设计任务时存在明显不足。以往的检索增强生成技术主要针对简单的问答任务,比如回答"某个总统的儿子多大年龄"这样的事实性问题,或者提供某个技术原理的详细解释。但复杂工程设计任务完全不同,它需要同时考虑多个现实世界的约束条件,并且要求生成的解决方案必须是完整可行的,而不是简单的知识片段拼接。
为了解决这个挑战,研究团队做了两件重要的事情。首先,他们构建了一个全新的评估基准SolutionBench,这就像是为工程设计AI系统专门设计的"考试题库"。其次,他们开发了SolutionRAG系统,这是一个能够自动进行复杂工程设计的智能系统。
SolutionBench的构建过程颇为严谨。研究团队从各个工程领域的权威期刊中收集了数千份关于解决方案设计的工程报告,涵盖环境、采矿、交通、航空航天、通信、建筑、水资源和农业八个主要工程领域。这就像是建立了一个涵盖各行各业工程难题的巨大案例库。每份报告都包含真实的工程需求、专家设计的解决方案、分析这些需求时用到的专业知识、解决技术难题时采用的技术知识,以及专家的设计思路解释。
更有趣的是SolutionRAG系统的设计理念。研究团队意识到,从一个不够完善的解决方案改进到可靠方案的过程是灵活多变的,没有固定的推理模式。这就像修理一台复杂机器,可能需要先检查电路,也可能需要先更换零件,具体路径取决于问题的具体情况。因此,SolutionRAG采用了"树状探索"的方法,每个分支代表不同的改进方向,系统可以同时探索多种可能的解决路径。
另一个巧妙的设计是"双重思维"机制。由于工程需求中存在多个现实约束条件,系统生成的解决方案无法保证满足所有约束。就像一个人在做重要决定时会反复思考一样,SolutionRAG在树的生长过程中会交替进行"解决方案设计"和"方案审查",逐步提高生成解决方案的可靠性。设计过程就像提出创意,审查过程则像找出问题和不足,两者相互配合,不断完善方案质量。
一、构建工程设计的"题库":SolutionBench基准测试
构建一个能够评估AI系统工程设计能力的基准测试,就像为医学院学生设计临床考试一样复杂。研究团队需要确保测试题目既来源于真实场景,又具有足够的权威性和多样性。
为了保证数据来源的权威性和真实性,研究团队选择了工程领域的权威期刊作为数据源。这些期刊中的工程报告都是由行业专家在严格的同行评议下完成的,相当于经过了多重质量检验。报告中的需求来自真实的工业场景,解决方案也都是经过实践验证的专业方案。
在领域多样性方面,研究团队选择了八个主要工程类别:环境工程、采矿工程、交通运输、航空航天、通信工程、建筑工程、水资源工程和农业工程。这种广泛的覆盖确保了基准测试能够评估AI系统在各种不同工程场景下的表现能力。
数据提取过程采用了模板化的方法。研究团队手工设计了一套提取模板,然后使用强大的大语言模型GPT-4o来实现内容提取。这个模板就像一个精密的筛子,能够从复杂的工程报告中准确提取出五类关键信息:现实世界的复杂需求、专家编写的解决方案、用于解读需求的分析知识、用于解决需求的技术知识,以及专家解决方案设计过程的解释。
然而,由于大语言模型是概率性模型,无法保证每次提取的内容都完全符合要求,因此研究团队还进行了人工验证和修正。他们逐一检查每个提取的内容,确保信息与原始工程报告一致,并且符合模板定义。同时,由于同一工程领域的不同报告可能使用相似甚至相同的分析知识和技术知识,研究团队还手工检查并合并了重复的知识条目。
最终构建的SolutionBench包含了八个工程领域的高质量数据集,每个领域都有相应的知识库。以环境工程为例,包含119个数据点和554条知识条目。每个数据点都包含一个复杂需求、一个黄金标准解决方案、相关的分析知识和技术知识,以及详细的解释说明。
这个基准测试支持两种评估方式。第一种是直接评估,给定一个需求,期望系统能够生成可靠的解决方案,这主要测试系统的内在知识和推理能力。第二种是检索增强评估,额外提供相关的知识库供系统检索和利用,这更符合实际工程设计中需要查阅大量专业资料的情况。
二、智能工程助手的核心技术:SolutionRAG系统
SolutionRAG系统的设计哲学可以用一个比喻来理解:它就像一个既有创造力又有批判思维的工程师团队。团队中有人负责提出创新方案,有人负责找出方案中的问题,而整个团队会通过反复讨论和改进来达成最终的优质解决方案。
系统的核心是"双重思维树"结构。这个树形结构由两种节点交替组成:解决方案节点和评论节点。解决方案节点包含针对给定需求设计的解决方案,期望是满足所有约束条件的完整可行方案。评论节点则包含对某个解决方案的审查意见,指出该方案在满足给定需求方面仍存在的不足之处。
树的结构设计很有意思:解决方案节点的子节点都是评论节点,而评论节点的子节点都是解决方案节点。这种交替连接形成了双重思维模式,确保每个解决方案都会被仔细审查,每个审查意见都会催生新的改进方案。树的根节点是工程需求本身,随着树的生长,较浅层的解决方案节点通常可靠性较低,而较深层的节点可靠性较高。
解决方案的改进过程通过树的生长来实现,包含节点扩展和节点评估两个关键步骤。在节点扩展阶段,系统会进行两种操作:设计操作和审查操作。
设计操作就像工程师根据需求和反馈意见来制定新方案。给定工程需求和特定的评论意见,系统首先通过大语言模型随机采样生成多个提案,每个提案代表不同的设计方向。然后,系统为每个提案从知识库中检索相关的专业知识。最后,系统综合需求、评论意见、检索到的知识和历史方案,生成更加完善的新解决方案。
审查操作则像专家对方案进行技术评议。类似于设计过程,审查也分为三个步骤:首先基于需求和解决方案生成多个审查提案,代表不同的审查角度;然后为每个提案检索相关知识;最后生成针对该解决方案的具体评论意见。
为了平衡推理效率和性能,系统还实现了基于节点评估的剪枝机制。随着树的生长,节点数量会呈指数增长,导致推理时间大幅增加。因此,系统会对每个节点进行评分,只保留最有希望的解决方案和最有帮助的审查意见。
节点评估的方法很巧妙。对于解决方案节点,系统会根据其子评论节点来判断该方案的可靠性。具体做法是将解决方案、评论和一个后缀文本组合输入给大语言模型,通过计算模型对后缀文本的预测概率来获得可靠性评分。这个后缀文本是"根据评论,上述解决方案是可靠的"。类似地,对于评论节点,系统会根据新旧解决方案的对比来判断该评论的有帮助程度。
在树的生长过程中,每一层都只保留评分最高的节点,确保推理过程始终沿着最有希望的解决方案和最有帮助的审查意见进行,从而在效率和性能之间取得平衡。
三、实验验证:传统方法的局限与新系统的优势
为了全面评估不同类型系统在复杂工程解决方案设计任务上的能力,研究团队设计了一套comprehensive的实验方案。实验就像是让不同的"工程师"来解决同样的复杂工程问题,然后比较他们的表现。
实验的评估方式很有特色。由于期望的系统输出是解决方案,这些方案可能有各种不同的文本表达方式,传统的基于规则的评估指标很难提供符合人类判断习惯的评分。因此,研究团队采用了GPT-4o作为评分器,计算两个关键得分。
分析得分评估系统设计的解决方案是否像专家设计的方案一样,使用了正确的分析知识来充分分析工程需求中的复杂约束条件。技术得分则评估系统是否像专家一样,使用了正确的技术知识来解决工程需求中的复杂约束条件。两个得分的范围都是0到100分,分数越高表示系统的表现越接近专业工程师的水平。
实验选择了多种不同类型的基准方法进行对比。深度推理模型包括o1-2024-12-17、GLM-Zero-Preview和QwQ-32B-Preview,这些模型具有强大的长链推理能力,但不使用外部知识检索。单轮检索增强生成方法包括朴素RAG和重排序RAG,它们只进行一轮检索和生成。多轮RAG方法包括Self-RAG、GenGround和RQ-RAG,这些方法会进行多轮迭代,反复执行问题重写、检索、过滤和生成中间答案等任务。
实验结果揭示了一个有趣的现象:传统方法在复杂工程解决方案设计任务上表现都不理想。深度推理模型虽然具有强大的推理能力,但缺乏足够的工程专业知识,在所有八个工程领域的表现都比较差。例如,GLM-Zero-Preview在航空航天领域的分析得分只有42.3分。
基于检索增强生成的方法虽然能够获取外部专业知识,但表现仍然处于相对较低的水平。例如,朴素RAG在采矿工程领域的技术得分只有40.1分,Self-RAG在环境工程领域的技术得分也只有63.6分。这说明简单的知识检索和生成并不足以处理复杂工程设计任务的多重约束和推理要求。
相比之下,SolutionRAG在所有八个工程领域都取得了最佳性能,显著超越了基准方法。例如,在采矿领域,SolutionRAG的技术得分比朴素RAG提高了10.4分,比Self-RAG提高了8.9分。这些实验结果证实了SolutionRAG能够有效处理各种真实工程场景中的复杂解决方案设计任务。
为了验证系统核心机制的有效性,研究团队还进行了消融实验。他们分别测试了去除树状探索机制和去除双重思维机制后的系统性能。去除树状探索意味着每个节点只生成一个子节点,形成单链推理模式。去除双重思维则意味着树中不包含审查过程,所有节点都是解决方案,形成单点思维推理模式。
消融实验的结果表明,移除任一机制都会导致性能显著下降,证明这两个机制确实是解决复杂工程解决方案设计任务的核心。更有趣的是,移除这两个机制后的整体性能下降程度相当,说明树状探索和双重思维在SolutionRAG中具有相似的重要性水平。
四、系统性能的深度分析:从生长过程到评估机制
为了更深入地理解SolutionRAG的工作机制,研究团队进行了详细的性能分析,就像解剖一个精密机器来了解每个部件的作用一样。
首先,他们检验了解决方案是否真的会随着树深度的增加而改善。研究团队分别对树的第1层、第3层和第5层的解决方案进行评分,结果显示性能确实会从浅层到深层逐步提升。这证明了SolutionRAG确实能够通过深度推理过程来改善解决方案质量,就像工匠通过反复打磨来提升作品品质一样。
树的生长过程展现了一个有趣的现象:分析得分和技术得分都呈现稳步上升的趋势。在第一层,系统提出的解决方案往往比较粗糙,只考虑了部分约束条件。到了第三层,方案开始变得更加完善,考虑了更多的工程约束。到了第五层,解决方案已经相当成熟,能够全面应对各种复杂情况。
节点评估机制的有效性也得到了验证。研究团队比较了被保留节点和被剪枝节点的解决方案质量,发现被保留节点的解决方案得分显著高于被剪枝节点。这证明了节点评估确实是一个有效的判断和剪枝机制,能够准确识别出最有希望的解决方案和最有帮助的审查意见。
这种差异在所有工程领域都很明显。被保留的解决方案节点无论在分析得分还是技术得分上都明显优于被剪枝的节点,说明系统的评估机制能够准确判断方案质量。被保留的评论节点也表现出更高的有用性,能够为后续的方案改进提供更有价值的指导。
这些分析结果揭示了SolutionRAG成功的深层原因。系统不是简单地检索知识然后生成文本,而是通过结构化的思维过程来逐步完善解决方案。树状探索确保了系统能够考虑多种不同的改进方向,避免陷入局部最优。双重思维机制则确保了每个方案都经过仔细审查,问题能够被及时发现和纠正。节点评估和剪枝机制则保证了推理过程的效率,让系统能够专注于最有希望的方案和最有用的反馈。
五、相关研究与技术创新:站在巨人肩膀上的突破
SolutionRAG的诞生并非无源之水,它建立在多个相关研究领域的基础之上,同时又实现了重要的技术突破。
在复杂问答任务方面,现有的检索增强生成研究主要聚焦于两类任务。多跳问答任务处理的是由多个子问题组合而成的复杂问题,期望的答案通常是从相关知识文档中提取的实体片段。长文本问答任务处理的是开放性和综合性问题,期望的答案是通过整合相关文档中的知识片段形成的文本段落。
然而,复杂工程解决方案设计任务与这两类任务有本质区别。工程设计问题包含多个现实世界的约束条件,期望的答案是需要灵活改进过程的解决方案,而不是简单的实体片段或知识段落整合。这种根本差异使得复杂工程解决方案设计成为一个全新且具有挑战性的任务。
在先进RAG系统方面,现有的高级RAG系统采用多轮方法来迭代执行重写、检索、重排序和生成中间答案等步骤。这些系统通过多次迭代来逐步改善答案质量,在一定程度上提升了复杂任务的处理能力。
但SolutionRAG与这些系统的关键区别在于双重思维树的设计。传统的多轮RAG系统主要关注信息的逐步收集和整合,而SolutionRAG专门设计用于应对复杂工程解决方案设计的挑战。它不仅要收集和整合信息,更要确保生成的解决方案能够满足所有工程约束条件。
最近一些研究开始构建基于蒙特卡罗树搜索的RAG系统,通过深度思考来获得更好的性能。这些方法在某种程度上与SolutionRAG的树状探索思想相似,都认识到了结构化搜索的重要性。
但SolutionRAG的独特贡献在于双重思维机制的引入。传统的树搜索方法缺乏确保满足所有工程需求的机制,因此无法保证解决方案的可靠性。SolutionRAG的双重思维机制通过交替的设计和审查过程,专门针对工程约束的满足性进行优化,这是其他方法所不具备的。
从技术创新的角度来看,SolutionRAG的主要贡献可以概括为三个方面。首先是任务定义的创新,它首次明确定义了复杂工程解决方案设计任务,并构建了相应的评估基准。其次是方法论的创新,树状探索和双重思维的结合为处理多约束优化问题提供了新的思路。最后是实用性的创新,系统在真实工程场景中的优异表现证明了其实际应用价值。
研究团队的工作为后续研究开辟了新的方向。未来的研究可能会探索如何将类似的双重思维机制应用到其他复杂设计任务中,如产品设计、系统架构设计等。同时,如何进一步提升树状探索的效率,如何更好地平衡探索宽度和深度,也是值得深入研究的问题。
说到底,这项研究代表了人工智能在专业领域应用的重要进展。SolutionRAG不仅仅是一个技术系统,更像是一个能够进行专业工程思考的智能助手。它证明了通过精心设计的推理机制,AI系统能够在需要深度专业知识和复杂推理的任务中达到接近人类专家的水平。
这对普通人意味着什么呢?可以预见的是,这类技术的发展将大大降低复杂工程设计的门槛。中小型工程公司可能不再需要聘请大量资深专家,而是可以借助AI系统来处理复杂的设计挑战。工程教育也可能因此改变,学生可以通过与智能系统的互动来学习工程设计的精髓。
当然,这项技术也面临一些限制。由于计算资源的限制,研究团队使用的是现有大语言模型的能力,没有考虑专门的训练优化。未来的工作可能会探索使用强化学习来训练专门的工程设计模型,从而开发出更加强大的系统。另外,由于同样的资源限制,研究中没有广泛探索树的宽度和深度等超参数,这也是未来值得研究的方向。
总的来说,这项研究为AI在专业工程领域的应用开启了新的篇章。它不仅提供了一个有效的技术解决方案,更重要的是展示了AI系统通过结构化思维来处理复杂专业任务的可能性。随着技术的进一步发展和完善,我们有理由相信,智能工程设计助手将成为未来工程实践中不可或缺的重要工具。
Q&A
Q1:SolutionRAG是什么?它能做什么? A: SolutionRAG是由中科院软件所开发的智能工程设计系统,它的核心能力是自动生成复杂工程问题的完整解决方案。比如设计一座在地震多发、土壤膨胀、降雨量大的地区建造医院的方案,系统能像资深工程师一样综合考虑所有约束条件,提供可靠的技术解决方案。
Q2:这个系统会不会取代工程师? A:目前不会完全取代工程师,更像是给工程师配备了一个非常博学的智能助手。系统能够处理复杂的设计任务,但仍需要人类工程师的判断和决策。它主要是降低了复杂工程设计的门槛,让中小型公司也能处理高难度的工程挑战。
Q3:普通人能使用这个系统吗?有什么要求? A: 目前这还是一个研究原型系统,主要面向工程专业人士。普通人可以通过GitHub项目地址https://github.com/Li-Z-Q/DeepSolution了解更多技术细节,但要实际使用还需要相当的工程背景知识。未来随着技术成熟,可能会开发出更易用的商业版本。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。