▲ 图片来源:Getty
数据显示,人工智能(AI)预计将在经济领域创造数万亿美元的价值。不过,尽管人工智能技术正在成为我们日常生活的一部分,很多人仍然对它抱有怀疑态度。他们的顾忌是,很多AI解决方案的运作就像个黑匣子,无法解释为什么似乎就奇迹般地产生了洞察结果。
而与此同时,众多行业现在都认为知识图谱是一种数据管理、元数据管理和丰富数据的有效方式,并且正在越来越多地应用于数据整合技术。此外,知识图也正在成为AI策略的组成部分,通过所谓的人在回路(HITL,human-in-the-loop)设计原则达到可解释AI的目的。
>>> 为什么人工智能的运作是个黑盒子?
AI基于诸如深度学习一类的机器学习算法,其强项就是从大数据集里自动提取模式和规则。这样做非常适合于一些特定的问题,在许多情况下可以帮助完成自动分类任务。至于为什么一些物体被归到某一类或另一类却是不可解释的。因为机器学习不能提取因果关系,机器学习也就不能归纳抽取某些规则的原因。
机器学习算法是从历史数据中进行学习,但机器学习算法无法从历史数据里得到新的见解。在日益变化的环境里,这个问题常常会受到质疑,因为深度学习的全部方法都是基于有足够数据的假设。在许多行业(如金融和医疗保健)里,有一点越来越重要——要实现的AI系统必须能够提供可解释的、透明的决定以及可以快速地与新的条件和监管框架接轨(如欧盟关于人工智能伦理的指引:https://www.europarl.europa.eu/RegData/etudes/BRIE/2019/640163/EPRS_BRI\(2019\)640163_EN.pdf)
>>> 我们能构建可以信任的AI应用吗?
如果没有可解释性,就没有信任可言。可解释性意味着系统里存在值得信赖的因子,这些因子能够理解和解释由AI系统作出的决定。但在目前情况下,除了让人工智能的决策更透明以外没有其他选择。不幸的是,一些最流行的机器学习算法是基于无法解释的计算规则,这些计算规则无外乎 “既成事实”。
要摆脱这种困境,唯一方法就是从根本上再构造有关的基本架构,不仅要用知识图谱作为计算的前提,还要提供相应的解释。
>>> 语义AI是什么?
语义AI是符号和统计AI背后的推动力。它结合了机器学习、知识建模、自然语言处理、文本挖掘和互联网语义各方面的方法,以及AI策略的优势(主要是语义推理和神经网络方面的优势)。
需要强调的是语义AI是目前构建基于AI系统主要方法的扩展,不是替代办法。该方法不仅提供战略选择,还会提供一个直接好处:可以更快地从小训练数据进行学习,比如在开发开发聊天机器人时克服所谓的冷启动问题。
>>> 知识科学家是什么样的科学家?
基于完全不同的方法,语义AI引入了具有互补技能的附加利益相关者。传统的机器学习主要由数据科学家完成,而参与语义AI或可解释AI的则是知识科学家。二者的区别是什么?
从本质上看,数据科学家绝大多数的时间都花在收集和处理不受控制的数据上,目的是从数据里得到有益的信息,工作的重点是利用无关的数据构建平铺数据文件,生成的数据特征与现实世界的关系并不强。
还有另一种方法,就是通过开发一些工具,然后由知识科学家用工具直接处理企业的知识图并从中提取数据的子集,进而迅速转化为分析结构。分析结果的本身可以被重复使用,并构建成为更丰富的知识图谱。
相较而言,语义AI方法建立的是一个连续的循环,由机器学习科学家和知识科学家作为这个循环上不可或缺的一部分。知识图在之间充当接口并提供高品质数据和归一化数据之间的链接。
>>> 新的人工智能方法会得出更好的结果吗?
知识图的使用除了可以用于构建值得信赖和被广泛接受的可解释AI外,还可以连同富含语义和链接的数据对机器学习算法进行训练。
该方法有许多优点。比如,可以在少量训练数据的前提下获取具足够精度的结果,这在冷启动阶段特别很有用。除此之外,该方法的训练数据集可重用性也更好,这将有助于节省数据准备过程里的成本。与此同时,该方法还可以为现有的训练数据补充背景知识,通过自动推理进而可迅速获取更丰富的训练数据,还可以帮助避免在特定领域中提取从根本上就是错误的规则。
>>> 开发和关注语义AI
综上所述,如果读者是数据科学家或数据经理,或是如果你管理的人处在这样的位置,那就务必开始着手语义AI研究和发展与语义AI工作相关所需的技能。
语义丰富的数据是高质量数据的基础,可为特征提取提供更多的机会。而由机器学习算法计算得到预测和分类精度就会更高。此外,语义AI应该建立基础架构以克服AI系统开发商和其他利益相关者的信息不对称性,其中的利益相关者包括消费者和政策制定者等等。从这方面来说,语义AI最终将在技术、伦理和法律三个层面上的工作达到AI治理的目的。
虽然,目前大多数机器学习算法在数据是文本或结构化数据时都可以很好的运作。但语义数据模型的引入将发挥更大的作用。
好文章,需要你的鼓励
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。
谷歌DeepMind团队开发的GraphCast是一个革命性的AI天气预测模型,能够在不到一分钟内完成10天全球天气预报,准确性超越传统方法90%的指标。该模型采用图神经网络技术,通过学习40年历史数据掌握天气变化规律,在极端天气预测方面表现卓越,能耗仅为传统方法的千分之一,为气象学领域带来了效率和精度的双重突破。