科技行者如何为数据标记提速?使用训练数据平台就对了

如何为数据标记提速?使用训练数据平台就对了

如何为数据标记提速?使用训练数据平台就对了

2021年2月17日 12:32:30 科技行者
  • 分享文章到微信

    扫一扫
    分享文章到微信

  • 关注官方公众号-科技行者

    扫一扫
    关注官方公众号
    科技行者

任何组织在开启自己的AI探索之旅前,首先需要明确一点:数据标记是监督机器学习系统中成本最高、最为耗时的部分之一。无论选择外包标记还是内部标记,组织都需要选择一套TDP进行工作管理。

来源:科技行者 2021年2月17日 12:32:30

关键字:AI 数据

如今,几乎每家上市企业都在积极讨论人工智能技术对自身运营方式的重大影响。从特斯拉使用AI技术改善自动驾驶性能,到Levis通过AI强化产品决策能力,每个人都热切想要在AI领域占据一席之地。

如何为数据标记提速?使用训练数据平台就对了

但要实现这一目标,组织的智能度必须进一步提升。为了逐步发展出严肃AI,我们需要采用监督学习方法,而监督学习的效果又由标记数据的质量决定。原始数据需要经过漫长的标记过程,而后方可用于增强监督学习模型,由此产生的预算甚至可能给组织带来可感受的压力。过去十年以来,组织高管在存储数据并将数据转化为收入方面,主要拥有三种选项:

1.DIY并建立自己的定制数据标记系统。为人力、技术及时间层面的重大投资做好准备并调拨预算,借此建立起一套规模庞大、可永久保存的健壮生产系统。听起来不难?也许吧,毕竟谷歌和Facebook都成功了。但这一切未必适合您,因为那些科技巨头拥有出色的人才与几乎无穷的IT预算,足以建立并维护这些复杂的标记系统——换言之,这类企业的预算甚至与世界上某些小国的GDP相当。另外,即使您拥有充足的人力与时间来从零开始构建大规模生产系统,您的组织能接受这项长期延续的巨额投资吗?

2. 外包。专业服务合作伙伴当然很给力,但您仍然需要开发自己的内部工具。这种方式还可能带来其它风险,因为此类解决方案要求将第三方数据与您自己的专有数据混合起来,通过显著扩大数据样本量在理论上获取质量更高的模型。您是否对自己的数据审计跟踪能力有信心,保证其能够在持久数据标记要求的整个生命周期中保持专有性?即使您的供应商倒闭,您在AI旅程中作为竞争优势开发出的流程是否可重复且始终可靠?您积累了数十的知识产权(数据)可能因此而不慎泄露,导致其落入同样与您合作伙伴联手构建系统的竞争方手中。以自动驾驶汽车行业为例,Scale.ai已经成为领域中规模最大的服务商,几乎所有相关机构都与其保持合作关系。

3. 使用训练数据平台(TDP)。这些属于相对较新的市场解决方案,可提供一套统一平台,将负责收集、标记并馈送数据的所有作业汇总至监督学习模型当中,或者帮助用户自主构建新模型。这种方法可帮助不同规模的组织获得等同于Salesforce及Hubspot等客户关系管理商的方式建立标准化工作流程。其中一些平台还使用集成化机器学习算法自动执行复杂任务,借此进一步降低工作难度。更重要的是,TDP解决方案能够帮助数据科学家摆脱繁重的任务,将主要精力集中在构建实际结构(而非构建及维护复杂而脆弱的定制化系统)当中。目前比较重要的TDP厂商包括Labelbox、Alegion以及Superb.ai。

我们为什么需要训练数据平台

任何组织在开启自己的AI探索之旅前,首先需要明确一点:数据标记是监督机器学习系统中成本最高、最为耗时的部分之一。随着机器学习系统逐步发展成熟并可用于生产环境,数据标记任务仍然不会停止。这项任务将永远存在并不断增长。无论选择外包标记还是内部标记,组织都需要选择一套TDP进行工作管理。

TDP旨在促进整个数据标记过程,加快产生高质量数据的速度,由此帮助组织快速创建高性能的AI模型与应用程序。如今,已经有部分企业在强调TDP技术的重要性,但真正能被称为“TDP”的解决方案仍然非常有限。

其中有两点非常重要:业务准备情况与直观的使用界面。如果未对业务做好充分准备,IT部门将拒绝使用。如果界面不够直观,用户也会寻找其他更易于使用的方案。此外,任何负责处理敏感的、对业务至关重要的信息的系统,也都需要具备企业级的安全性与可伸缩性保障,否则同样无法正常起效。而实际情况甚至证明,这类目标也许永远无法实现。IT消费化至少已经持续了十年,但Instagram这类简单易用的应用都很难在组织内普及。Salesforce的自动化工具之所以能够从Siebel手中夺取市场,靠的就是轻松愉快的用户体验与便捷的云交付。

除了这些基础之外,数据注释、管理与迭代同样非常重要。如果候选系统无法满足这三项要求,那么其同样不能算是真正的TDP。下面来看关于这三项核心指标的更多细节:

注释。TDP必须提供可用于智能自动注释功能的工具,即尽可能自动做出更多标记。高水平的TDP应该能够处理有限数量、带有专业标签的数据。我们以放射科医师处理的X光片为例,系统需要首先从图像中识别出肿瘤,而后再做出预标记。而审核人员的工作,就是纠正各类错误标记问题。机器会为标记结果提供一项置信度输出,例如特定标签正确标记的可能性为80%。对审核人员来说,优先级最高的工作应该是检查并纠正机器认为置信度不足的标签。因此,组织应努力推动注释自动化并投入于相关专业服务,确保数据标记的准确性与完整性。好消息是,目前与注释相关的多数任务无需人工即可轻松完成。

管理。TDP应该用作数据训练项目中的中央记录系统。数据科学家与其他团队成员将在TDP中开展协作,通过与传统项目管理工具的集成、或者在平台本体之内,创建工作流并分配任务。

由此得出的数据集,还可供后续项目使用。以美国为例,每年约30%的房屋会投保房屋保险。为了预测风险并做出准确定价,保险公司需要分析多种数据——例如房龄、是否有游戏池或者蹦床,或者房屋与树木间的距离。为了推进这个过程,企业现在使用计算机视觉通过卫星图像为保险公司提供连续分析支持。在对新兴市场中的房屋进行分类时,企业应该使用TDP重复使用现有数据集。例如,如果某家公司有意进军英国市场,则应该能够重用来自美国的现有训练数据,以此为基础稍加更新以适应当地差异(例如英国本地的建筑材料选择)。这些迭代周期,将使企业提供高准确度数据,同时迅速做出调整以适应美国及其他地区的房屋情况变化。

这意味着您的TDP需要提供与其他软件相集成的API,借此对接项目管理应用、数据收集与处理工具,并帮助组织通过SDK建立自定义工具、扩展TDP。

迭代。真正的TDP必须承认这样的现实:带有注释的数据永远不会保持静态。相反,数据会不断变化,随着更多数据加入数据集而持续迭代,并由模型提供关于数据有效性的反馈。而保持数据准确性、客观性的关键,就是迭代。我们需要测试模型、改进模型、再次测试、持续循环。拖拉机的智能喷雾器能够在50%的概率将除草剂准确喷向杂草,而随着训练数据中的杂草图像越来越多,计算机视觉模型的后续迭代有望逐步将准确率提升至90%或更高,同时帮助喷雾器更准确地识别出那些不需要喷洒除草剂的植物。这个过程可能相当耗时,而且在高自动化水平的支持下,往往仍需要审核人员的参与。通过一次次迭代,我们可以推动模型逐步走向最佳状态。而TDP的目的就是加速这种迭代,并确保每次迭代都能给模型带来积极的改进,由此节约时间和金钱。

展望未来

正如十八世纪的标准化与可互换部件引发了工业革命一样,用于定义TDP的标准框架也开始将AI技术推向新的高度。尽管尚处于起步阶段,但真正的TDP管理平台能够以更可靠的方式将原始数据(特别是宝贵的知识产权)转化为标记数据,由此帮助组织在所在行业中建立起实际竞争优势。

在另一方面,高层管理人员还需要切实理解通过投资挖掘AI潜在财富的必要性。以往,组织只能在自主构建、外包或者直接采购之间做出选择,三者都会带来高昂的成本。更重要的是,自主构建与外包还可能带来巨大的隐性成本,导致组织难以成功迈入新的业务领域。真正的TDP能够“降低”这一高成本决策的风险,同时有效保护企业的核心竞争优势,即知识产权。