微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI将揭开梵蒂冈机密档案馆之谜

AI将揭开梵蒂冈机密档案馆之谜

2018-03-20 15:12
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2018-03-20 15:12 科技行者

科技行者 3月20日 北京消息 梵蒂冈机密档案馆(Vatican Secret Archives)被列为世界十大禁地之一,它是罗马教皇的档案保管机构,也是欧洲教会中收藏档案最丰富,最古老的档案馆。

其珍藏的许多文件从未转录,即便教堂档案员也对其中隐藏的秘密一无所知。然而,机器视觉系统将会揭开中世纪文本的神秘面纱。

AI将揭开梵蒂冈机密档案馆之谜

梵蒂冈机密档案馆颇为传奇。据称,该馆保存的往届教皇的私人信件和其他文件,不少内容可追溯至公元8世纪, 排起来可延绵85公里长。

馆内警戒森严,自1881年起,学者们接触到的文件极为有限,但其中的信息量却蔚为可观。

举个例子,一张长达60米的羊皮纸上记满了对法国圣殿骑士的审判供词,这场审判自1307年伊始,持续数年。这些信件中,有米开朗基罗的手稿,有国王亨利八世请求废除婚姻的申请书,还有苏格兰女王玛丽被斩首前的说情信。

此外,档案中还包含距今较短的通信文件,比如美国南北战争时期,亚伯拉罕·林肯和杰斐逊·戴维斯分别来信,试图说服教皇庇护九世支持各自阵营——北方联邦和南部邦联。还有二战期间,教皇与纳粹政权的往来信件都从未出版。事实上,1939年后的所有档案完全对外保密。

AI将揭开梵蒂冈机密档案馆之谜

虽然这些文件禁止出版,但档案馆设有影像备份及档案保护工作室。与其他许多历史档案馆一样,他们已开始影像备份文件,供学者深入研究。

但档案存量过于庞大,光靠人工抄录备份,根本无法完成。那么,机器视觉技术是否能够起作用?

幸运的是意大利罗马第三大学的Donatella Firmani及其同事启动了“In Codice Ratio(‘编码系统’的拉丁文)”项目,旨在开发能够自动转录梵蒂冈机密文件(名为Vatican Registers)的系统。

该语料库收录了13世纪的18,000页官方信件,覆盖内容极广,从天主教到国王、王后,从政治到宗教,横贯欧洲各领域。Firmani及其团队表示:“这些文件此前从未转录,因此,历史意义可谓空前巨大。”

中世纪文本的特殊性给机器视觉技术带来了诸多挑战。由于手稿字迹风格各异,存在连笔(将相邻字母连成一笔书写)和特殊缩略语,因此传统的视觉识别算法无法胜任转录工作。

为解决这一难题,学者们研发了识别整个单词(不仅仅是字母)的计算机视觉系统。然而效果仍不理想。大多数单词在长篇文件中只出现过几次,所以很难创建满足机器学习需求的数据集。

如今,Firmani及其团队发明了训练文字视觉识别系统的新方法:将单词拆分为笔划,再像拼图一样将笔划组合起来。他们表示:“我们想开发一个能够转录尽可能多手稿的成熟系统。”

系统将单词拆分为笔划后,再试图将笔划组合成字母,分析所有可能的排列组合方式,最终排除所有不符合语法的组合。

例如,通常可将笔划组合为“iii”和“m”,因语法错误排除前者。同样的笔划组合还有“in”或“ni”,系统需进一步研究整个单词及其所处语境,再作出选择。

Firmani团队首先创建了一个数据集,训练基于神经网络的计算机视觉系统。

该数据集需要进行标记处理。因此,视觉系统可学习笔划的排列方式与可能字母的映射。

他们将数据标记外包出去,将拼图似的单词拆分为模式识别问题(如拼图式验证码)呈现给120所高校学生,让他们数小时内共同人工标注包含15,000个单词的数据集。

标注结果十分理想。Firmani团队称:“我们能够准确转录数据集中65%的字母图像。”

显然,这一成果对转录中世纪文章和历史学家的研究而言意义非凡。但还有更多难题需要攻克。例如,小写字母的转录问题仍然存在,因此下一步的关键是扩大词汇量,将大写字母及中世纪文本中的缩略语纳入数据集。

梵蒂冈机密档案馆将如何利用这一科技尚不得而知,梵蒂冈文件(Vatican Registers)被转录后是否会公之于众也无人知晓。

但即使文件未能出版,Firmani团队开发的前沿技术也能帮助学者们进行相关领域的深入研究。例如,可利用单词、词组频率及其随时间的变化等数据展开历史文件研究。可作为分析历史文化的重要切入点。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 奖励设计:让AI学会智能使用工具的关键
    2025-04-23 17:39

    奖励设计:让AI学会智能使用工具的关键

    想象一下,你有一个非常聪明的朋友,他知道很多知识,但每当需要使用计算器、搜索引擎或查询最新天气时,却变得像个笨手笨脚的孩子。这正是当前大语言模型(简称LLMs,如ChatGPT这类AI系统)面临的尴尬处境。

  • ToolRL:奖励设计是工具学习所需的全部
    2025-04-23 17:34

    ToolRL:奖励设计是工具学习所需的全部

    想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。

  • X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御
    2025-04-23 14:08

    X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御

    想象你正在和一个智能助手聊天。如果你直接要求它提供有害信息,它很可能会礼貌拒绝。但如果你通过一系列看似无害的对话,逐步引导它走向你的真实目标呢?这就是当前AI安全领域面临的一个严峻挑战——多轮对话中的安全漏洞。

  • "思考操纵":用外部思考让大型推理模型更高效
    2025-04-22 16:43

    "思考操纵":用外部思考让大型推理模型更高效

    想象你在使用一个非常聪明的AI助手完成一项复杂任务,比如解决一道数学难题。你可能注意到这个助手会花很长时间"思考",一步一步写下大量推理过程,最后才给出答案。虽然这种详细的思考过程确实帮助AI做出了更准确的判断,但同时也带来了一个明显的问题:它太"啰嗦"了,消耗了大量的计算资源和时间。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-