
这项由中国人民大学高岭人工智能学院主导的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.29861v1,有兴趣深入了解技术细节的读者可通过该编号查询完整原文。
当你向AI提问,期待得到一份像咨询公司那样图文并茂的专业研究报告时,你会发现大多数现有AI工具都只能给你一大段白花花的文字。图在哪里?数据图表在哪里?那些用来说明观点的截图和示意图在哪里?更关键的是,这些AI说的话到底有没有靠谱的来源?这正是这项研究要解决的核心问题。
研究团队提出了一套名为PTAH的多智能体系统——名字来自古埃及的创造之神,工匠的守护神,寓意着将散落的文字与视觉素材精心组合为完整作品。这套系统的目标只有一个:从用户的一句提问出发,最终生成一份可以直接在浏览器中阅读、图文交织、引用有据可查的网页版深度研究报告。与此同时,研究团队还设计了一套配套的评估体系PTAHEval,专门用来衡量这类多模态报告的质量,填补了现有评估工具只能打分文字内容、对图片视而不见的空白。
---
一、为什么AI写报告这件事,比你以为的要难得多
当我们谈论"让AI帮你查资料写报告"时,脑海中可能浮现的是一个超级高效的助理:它能在几分钟内浏览数十个网页,把关键信息提炼出来,再组织成一篇条理清晰的长文。这类系统被研究者称为"深度研究"(Deep Research),区别于只回答一个具体问题的"深度搜索"(Deep Search)。
深度搜索就像在图书馆查一个词条——你问"珠穆朗玛峰有多高",它告诉你"8848.86米",这个答案对不对,一秒钟就能验证。而深度研究更像是写一篇综述论文:没有唯一正确答案,需要综合多方来源,需要判断哪些信息重要、哪些相互矛盾,还需要以清晰有说服力的方式呈现出来。
这就带来了两个特别棘手的挑战。第一个挑战是"没有标准答案"。深度研究报告不像数学题,对错一目了然,它的质量很难用一个简单的指标衡量,而一旦前期收集的信息出了问题,后续所有内容都会受到污染。第二个挑战是"图文配合"。一份真正专业的报告从来不只是文字。它会用趋势折线图说明某项技术的发展走势,用架构示意图帮读者理解复杂系统的运作原理,用来自原始文献的截图作为论据支撑。然而现有的AI系统大多把图片当作写完报告后随手贴上去的装饰,与文字内容的关联很松散,甚至会出现配图和正文说的完全不是同一件事的情况。
研究团队把这两个挑战比作"深度研究面临的两道坎",而PTAH的设计思路就是同时跨越这两道坎。
---
二、PTAH是如何工作的:一个分工明确的多人协作团队
理解PTAH最直观的方式,是把它比作一个正在完成咨询项目的专业团队。这个团队里有项目经理、多名独立调研员、一名主笔撰稿人,以及一名随时待命的质控审核员。
团队的第一步工作由"规划师(Planner)"完成。规划师拿到用户的问题后,不会立刻开始查资料,而是先做前期探索,然后产出一份详细的"研究计划书"。这份计划书不只是列出报告要写哪些章节,还明确说明了每个章节需要配什么类型的图——是需要数据图表来展示趋势,还是需要架构图来解释原理,还是需要实物截图来提供佐证。这种把视觉需求写进计划书的做法,是PTAH区别于大多数现有系统的重要特征之一。
计划书完成后,会经过"审核员(Verifier)"的第一轮检查。审核员会用两种方式来判断这份计划书够不够好:一是机械式的规则检查,比如格式是否正确、工具调用是否符合规范;二是让另一个语言模型来判断这份计划是否真正覆盖了用户问题的方方面面,各章节之间是否逻辑连贯,以及计划中的视觉需求是否与对应的文字论述相匹配。如果审核不通过,规划师需要修改甚至重新搜索资料后再提交。
通过审核后,多名"调研员(Researcher)"同时并行工作,每人负责一个章节的深入调研。每位调研员搜索网页、阅读资料、整理发现,产出一个结构化的"研究包",里面包含关键发现、支持论据、数据表格、引用来源以及给后续撰稿人的写作建议。
与此同时,调研员还会系统性地从访问过的网页中提取图片,建立该章节专属的"视觉工作记忆(Visual Working Memory)"。这个"工作记忆"就像调研员随手建立的一个图片素材库,但不是随意堆放:每张图片都跟着自己的来源网址、所属章节、和在报告中应该扮演的角色一起被存储起来。同样,这个素材库中的图片在进入下一步之前,也会先经过规则筛选(剔除分辨率过低、比例极端、明显无关的图片),再由视觉语言模型根据规划阶段设定的图片需求,进行更细致的相关性评估,决定留下哪些、去掉哪些。
每个调研员交出的研究包,同样要经过审核员的审查——这次重点检查的是引用的URL是否真实有效,数字数据是否前后一致,图片与章节内容的相关性是否达标。不合格的研究包会被退回给对应的调研员,要求补充或修正。
---
三、从素材到报告:撰稿人如何编织图文交织的完整作品
调研完成后,"撰稿人(Writer)"拿到的是:一份全局研究计划、所有章节经过审核的研究包,以及各章节对应的视觉工作记忆素材库。
撰稿人不是先写完所有文字,再回头想"这里放一张什么图好"。而是采用一种"声明式多模态写作"的策略:在写文字内容的同时,就在应该出现图片的位置嵌入图片指令标签,说明这个位置需要什么样的图、图片的作用是什么、应该通过什么方式获取。
图片的获取有三条路径。优先考虑的是从视觉工作记忆里直接复用调研阶段已经收集并筛选过的原始网页图片,因为这类图片本身来自与正文内容直接相关的来源,一致性最高。如果现有素材库里没有合适的,则会启动额外的图片搜索,从网络检索相关图片。如果报告需要的是某种原创性的可视化内容,比如根据数据绘制的趋势图,或者解释某个抽象概念的示意图,则可以调用代码执行工具生成图表,或者调用图像生成模型来创作插图。
初稿完成后,PTAH并不急着交差,而是启动一个叫做"测试时优化(Test-Time Scaling)"的六步精炼流程。第一步是章节精炼,逐章检查文字的清晰度、证据覆盖情况和引用准确性。第二步是图片精炼,对每一张图片做出"保留、删除或编辑"的判断,需要调整的图片会执行具体的编辑指令。第三步是整体精炼,从全局视角审视各章节之间的一致性,以及图片与文字在整体上是否协调呼应。第四步是生成HTML文档,把精炼好的报告转换成带有布局和样式设计的网页格式。第五步是HTML精炼,进一步调整网页的排版细节、间距和视觉呈现。第六步是最终渲染,在浏览器中生成可以直接阅读的用户端多模态报告。
这六步精炼的意义不仅仅是"改改错别字",更关键的是确保最终呈现给用户的不只是内容正确,还要在视觉上易于阅读,图片放置的位置和方式真正服务于理解,而不是堆砌装饰。
---
四、如何衡量一份图文报告到底好不好:PTAHEval评估体系
现有的深度研究基准测试,比如DeepResearch Bench和DeepConsult,主要是评估报告的文字质量——内容是否全面、分析是否深入、是否符合指令要求、文字是否流畅。这些维度对于纯文字报告完全够用,但对于图文交织的多模态报告,却完全无法评价图片部分的质量。
PTAHEval的设计思路是在保留原有文字评估维度的基础上,新增两个专门针对多模态内容的评估维度。
第一个维度叫"图片内容质量(ICQ)",评估的是报告里每一张具体图片的质量。评估时,将包含图片和周围文字的内容一起送入视觉语言模型进行判断。具体来说,ICQ从四个角度打分:图片本身是否清晰易读(视觉清晰度);图片的语义内容是否与周围文字一致、放置位置是否合理(跨模态对齐);图片是否传递了文字难以单独表达的有价值信息(信息互补性);图片是否为正文中的论点或结论提供了佐证(证据支撑性)。每个角度的评分采用1到5分的五级量表。
第二个维度叫"多模态呈现质量(MPQ)",评估的是整份报告渲染成网页后,读者实际看到的那个界面的质量。评估时,将报告网页渲染出来,截取宽1000像素、高2000像素的首屏截图送入视觉语言模型打分。MPQ同样从四个角度评估:信息密度与视觉清晰度的平衡(密度可读性平衡);关键信息和结构要素是否通过视觉层次感得到有效突出(信息显著性);是否使用了表格、图标、图表、示意图等多种视觉形式辅助理解(视觉编码多样性);排版间距、视觉节奏、对齐方式是否降低了阅读负担(视觉工效)。
这种把"内容对不对"和"呈现好不好"分开评估的思路,让PTAHEval能够从多个维度全面衡量一份多模态报告的实际质量。
---
五、实验结果:PTAH在各项评估中的表现
研究团队在DeepResearch Bench(100道博士级研究任务,覆盖22个领域,中英文各50道)和DeepConsult(102道商业咨询类问题)两个基准上进行了评测,与多个基线系统进行对比。参与比较的系统包括:直接让语言模型生成报告(不做任何搜索)、三种单智能体文字搜索系统(ReAct、Search-o1、WebThinker),以及一种能够生成多模态内容的智能体方法LLM-I。
在文字质量方面,PTAH在DeepResearch Bench上的综合评分为45.16,是所有参与比较的系统中最高的,在分析深度和报告可读性两个维度上尤为突出。在DeepConsult上,PTAH的平均分为16.18,比第二名WebThinker(7.35)高出一倍有余,在指令遵循、完整性和写作质量上的提升最为明显。
在图片质量方面,PTAH在ICQ的四个维度上全面领先,其中跨模态对齐的得分尤其接近满分,这背后有两个原因:一是从真实网页提取的图片本身就与网页内容高度相关,二是测试时优化机制进一步强化了图文的一致性。相比之下,LLM-I的ICQ平均得分仅为1.97,与PTAH的4.39相差悬殊,说明没有系统性验证机制的多模态生成,其图片质量远不稳定。
在报告可信度方面,PTAH的引用准确率达到87.53%,平均每篇报告包含9.64条有效引用,搜索工具调用次数(12.82次)也明显多于其他系统。对照组实验中发现,在没有审核员模块的情况下,ReAct和Search-o1等基线系统频繁生成无效甚至虚构的URL,而PTAH的审核员机制有效保证了每一条引用都指向真实可访问的来源。
人工评估进一步验证了自动评估的可靠性。研究团队从DeepResearch Bench中随机抽取25道题,由四名标注员(两名AI博士生和两名本科生)以匿名对比的方式比较PTAH与基线系统的报告质量。标注员在图片内容质量上对PTAH的支持率达到88%-96%,在多模态呈现质量上对PTAH的支持率达到80%-100%,结果与自动评估高度吻合。
此外,研究团队专门围绕审核员的作用进行了消融实验。去掉审核员后,100道题中有14道在规划阶段就因格式错误或工具调用失败而无法继续,剩余86道中又有18道在调研阶段失败,最终只有68道能完整生成报告,说明审核员对整个流程的稳定性至关重要。对于成功生成的68份报告,引用准确率从87.53%骤降至30.29%,充分说明审核员在事实可信度方面的关键作用。
测试时优化机制的效果同样经过了单独验证。去掉这个六步精炼流程后,报告的综合文字得分下降3.03分,ICQ平均分从4.39降至2.77,MPQ平均分从3.71降至3.49。同时,去掉精炼流程后报告中图片的平均数量从3.76增加到5.06,但无效图片的比例也从0.12上升到0.38,说明精炼流程不只是在数量上筛选图片,更在质量上大幅提升了图片的可用性。
用户体验评估部分,研究团队让四名评估者对比PTAH和WebThinker生成的报告,从可读性、易用性、信息获取效率和整体偏好四个维度做出判断。PTAH的胜出或持平率分别为88.75%、88.75%、96.25%和95.00%,其中信息获取效率的高胜率说明图文穿插的呈现方式确实帮助读者更快找到和理解关键信息。
针对视觉元素本身的贡献,研究团队还设计了一个"去图版PTAH"实验,使用完全相同的流程,只是在最终报告中不加入任何图片。去图版PTAH的文字综合评分(45.10)与完整版(45.16)几乎相同,但MPQ平均分从3.71降至3.29,说明图片对文字评分几乎没有负面影响,但对多模态呈现质量有实质性的提升贡献。
---
六、系统的时间成本与效率设计
研究团队在DeepResearch Bench上对PTAH的运行效率做了细致分析。完整流程平均耗时约1015秒(约17分钟),其中调研阶段是最耗时的部分,平均459秒,因为它涉及对多个网页的开放式搜索、内容解读和图片池构建。测试时优化阶段平均243秒,规划阶段192秒,写作阶段121秒。
多名调研员并行工作的设计带来了显著的效率提升。如果改为顺序执行,调研阶段的平均耗时将从459秒膨胀到1328秒,增加近三倍。并行设计在不牺牲报告质量的前提下,将调研时间压缩了65%。
不同强度的审核员也会影响整体速度。研究团队测试了用DeepSeek-R1替换当前审核员的效果,发现规划阶段耗时从192秒增加到853秒,调研阶段从459秒增加到1408秒。更强的推理模型意味着更严格的检查和更多轮的修改迭代,因此在报告质量和生成速度之间存在明显的权衡关系。研究团队最终选择当前版本的审核员作为质量与效率之间的平衡配置。
---
说到底,PTAH这项研究回答的是一个非常具体的问题:当我们希望AI不只是给出一段文字答案,而是真正生成一份像样的专业报告时,需要在架构设计上做哪些事情。研究团队给出的答案是:分阶段拆解任务,让专业化的智能体各司其职;把图片处理从事后装饰变成前期规划中的核心要素;在每个关键环节设置审核检查点,阻止错误累积传播;最后通过多轮精炼把内容质量和视觉呈现质量都打磨到位。
这套思路本身并不复杂,但把它完整落地需要解决大量工程细节和设计取舍,而实验结果表明这些努力是有实际效果的。对于普通用户来说,这意味着未来借助类似系统产出的研究报告,将不再是一大段孤零零的文字,而是能把数据图表、示意图、实物截图和文字论述有机融合在一起,每一张图都说明问题,每一条引用都指向真实来源。
如果你有兴趣了解PTAH背后更完整的技术细节,可以通过arXiv编号2605.29861检索原论文,这项工作由中国人民大学高岭人工智能学院的研究团队完成。
---
Q&A
Q1:PTAH系统的"视觉工作记忆"是什么,有什么用?
A:视觉工作记忆是PTAH在调研阶段为每个章节建立的一个图片素材库。调研员访问网页时会系统提取其中的图片,经过分辨率过滤和视觉语言模型的相关性筛选后,每张保留的图片都会和来源网址、所属章节、预期用途一起存储。这样做的好处是,撰稿阶段可以直接复用这些来源可追溯的图片,而不是临时随意搜索或生成,从而保证图片与文字内容之间的高度一致性。
Q2:PTAHEval评估体系和现有的AI报告评估方法有什么不同?
A:现有深度研究评估基准(如DeepResearch Bench)主要只评估文字内容的质量,对报告中是否有图片、图片质量如何完全不考量。PTAHEval在保留文字评估的基础上新增了两个维度:图片内容质量(ICQ,评估每张图片的清晰度、与文字的对齐度、信息互补性和证据支撑性)和多模态呈现质量(MPQ,通过截取网页首屏截图来评估整体版面的可读性、信息显著性、视觉多样性和排版舒适度),由视觉语言模型打分。
Q3:去掉PTAH的审核员模块会发生什么?
A:去掉审核员后,系统稳定性大幅下降。在100道测试题中,有14道在规划阶段就因格式或工具调用错误而卡住无法进行,剩余中又有18道在调研阶段失败,最终只有68道能完整生成报告。更重要的是,成功生成的68份报告的引用准确率从87.53%骤降至30.29%,说明审核员不仅保证了流程稳定,还是确保报告引用真实可信的关键机制。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。