微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI发展格局正从“数据”演变为“知识”

AI发展格局正从“数据”演变为“知识”

2020-10-10 15:26
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2020-10-10 15:26 科技行者

人工智能(AI)革命自半个多世纪前诞生以来,给整个世界带来巨大冲击。特别是在过去十年当中,AI已经由学术领域的研究方向,转化为我们日常生活中不可或缺的组成部分。如今,我们习以为常的AI业务策略主要以数据为中心构建而成,专有数据甚至成为AI企业最具战略意义的资源储备。但在未来几年中,专有数据将不再是一种独特的资产,这意味着以专有数据为基础的差异化优势在可持续层面将持续走低。因此,整个世界很可能由基于数据的AI策略,转化为基于知识的AI策略。

AI发展格局正从“数据”演变为“知识”

大数据的发展,利益于众多传感器的部署、互联网连接的普及以及计算能力、通信能力与数字存储等层面软硬件的大幅改进,这也使AI技术培训得以从小型学术研究项目变身成为大规模企业生产级应用程序。在本质上,大数据要求复杂的AI模型从中分析并提取知识与洞见,而这些AI模型又需要海量大数据进行训练及优化。因此,目前AI企业往往将数据视为重要的战略储备,这种趋势在风险投资领域也变得愈发普遍。事实上,近期不少初创企业已经将数据收集作为其业务战略的核心。越来越多的同类厂商开始强调他们所掌握的独特数据集以及能够进一步获取其他专有数据的长期策略,并将此视为一种可持续的从业壁垒。此外,由于AI工具与AI即服务平台使得AI模型开发快速进入商品化阶段,再加上公共开放数据集的持续涌现,人们建立并捍卫自己数据围栏的需求也变得愈发显著。

在如今的技术生态系统中,谁拥有更先进的AI程序、谁对专有数据的控制能力更强,谁就能从市场上获得更多回报。这也被视为一种巨大且可持续的竞争优势。以谷歌与Netflix为代表的厂商,已经在多年的运营中开发并整理出规模庞大的权威数据集,无数其他企业则满怀钦羡在他们身边亦步亦趋、希望复制他们的成功。但面对Netflix复杂精妙的数据策略,竞争媒体服务供应商与剧集制作企业根本无法望其项背。

但随着预期数据交换能力与交换意愿的提升,我们相信在未来十年之内,专有数据建立起的准入门槛恐怕将无法持续。虽然数据仍将成为AI价值引擎的重要燃料,但知识在AI业务策略中的比重将越来越大。

将AI价值金字塔向上推进至知识层

如果存在一座AI价值金字塔,那么其基底部分无疑是数据,而越是往上、知识的占比就越可观。如今我们正处于“信息触手可及,知识却难觅形迹”的时代,因此将AI价值金字塔推向知识层已经成为一种必需。

事实上,我们已经看到众多数据交换倡议旨在促进并加速这一趋势的推进。我们希望通过商品化数据共享以换取有价值的知识乃至业务可行性。总之,数据将变得更加丰富、可用、可靠、标准化且成本低廉,而这一切也意味着数据将成为一种典型的商品。以此为基础,将数据作为准入壁垒的理念也将不攻自破。

随着物联网(IoT)设备的激增,数据共享的可行性也将达到新的高度。此外,用于数据合并、共享与交换的新兴技术、协议及标准也将及时跟上。展望未来,只要拥有明确的动机与意愿,数据共享能力本身也将成为一种重要优势。随着数据这一准入壁垒在AI技术的冲击下土崩瓦解,将有更多组织不懈收集自己的专有数据并将其作为一种重要商品。当然,这种数据的获取及利用仍然颇具难度,回报也未必明显,因此可能在战略层面造成扭曲。这是因为尽管大多数组织已经将AI视为自身业务体系中的一部分,但AI却仍然不属于传统技能或者核心专业知识中的一分子。另外,AI训练工程师、开发人员、产品负责人以及管理者的长期缺失,也将加剧这种战略失衡并最终令以知识交换为目标的数据共享方案受到市场的广泛认可。

欧盟最近提出的通过数据交换以产生知识倡议,就是这种将创造力与合作意愿加以结合的典型案例。他们希望建立起“单一数据市场”,帮助个人、企业及其他组织以非个人数据为素材提取洞见并做出更好的决策,借此与当前各主流技术巨头开展竞争。

冲击专有数据可持续性的另一大因素,在于新型数据解决方案的出现。这类解决方案能够使用相对较小的数据集实现模型训练。合成数据解决方案(例如生成对抗网络)与其他样本最小化技术(例如数据增强)有望使企业无需大量数据即可构建起颠覆性的AI产品。

建立知识发展战略

AI革命的未来将重塑企业赖以生存的现实市场,因此我们必须建立起有针对性的业务战略。由数据向知识的转变也将带来新型框架、合作伙伴关系与商业模式,包括为知识创造提供数据、信息、AI模型、存储以及计算容量的各参与方。面对这片前所未有的广阔市场,企业应该尽快着手制定更侧重于知识要素的发展战略:

建立知识储备以替代数据储备,并将这一基本原则视为未来业务战略的核心。企业与组织应该为以知识为中心的时代做好准备——在这一新时代中,谁能提出正确问题、找到关联度最高的预测结果并设计出最具颠覆性的AI应用方案,谁就能占据市场竞争的制高点。

以自上而下的方式使用AI技术,围绕应用程序与产品层组织业务体系。AI模型应根据特定的垂直行业与假设进行开发及训练。例如,立足成像、诊断、远程医疗、药理学及其他临床应用开发特定的医疗保健应用;或者面向车队管理、公共交通以及其他交通参与因素构建交管系统等。这类解决方案的开发要求我们将基于特定领域的丰富知识与实践经验结合起来,同时匹配上下文信息与经过良好调优的AI模型。

数据获取计划将只是一种短期性质的战术性追求,而基于知识的交流与合作伙伴关系则是更值得培养的长期业务战略。去年,以色列创新局启动了一项试点计划,希望实现医院与技术初创企业之间以知识为基础的业务合作。这一合作在初创企业与医院之间建立起数十个具体项目,促进了各医院之间对原始(且以往几乎无法使用)数据的积极交换,同时也帮助初创企业积累起新颖且宝贵的知识。

最后,面向知识的业务转变也应影响到组织内的人力资源策略。企业应该为未来AI发展制定贴切且明智的人力资源管理策略。尽管部分初创企业仍然需要投入重金招聘数据工程师与科学家,但最理想的方法应该是将AI团队设计为管理团队,负责建立并推进AI知识合作伙伴关系、发明基于AI的应用程序/产品,并对AI革命的美好前景做出创造性的探索。这一切,在本质上都代表着从以数据为中心向以知识为中心进行架构重新设计。此外,AI团队还应帮助人们理解其所运营领域的上下文。其中最核心的要点,是保证各团队成员通过整体方法充分运用自己对于AI及特定职能领域的理解,而不再仅仅只扮演常规AI专家的角色。

总结来讲,AI的未来取决于由强调专有数据集向跨实体共享数据并创造知识的转变。为了成功实施相关AI策略,企业必须正确对数据、信息、AI模型、存储、计算容量等要素加以组合,保证企业业务深深植根于知识这一最重要、最核心的差异性资源。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-