亿次。”
阿里巴巴高级技术专家 罗金鹏
4月20日, UBDC全域大数据峰会·2016上,阿里巴巴公共数据平台负责人罗金鹏首次对外披露了在阿里中台战略下,如何推动数据中台落地的个中细节。
据悉,中台战略是阿里巴巴于2015年底首次提出。作为阿里中台战略的核心之一——数据中台旨在对内提供数据基础建设和统一的数据服务,对外提供服务商家的数据产品。
OneData是阿里数据中台的核心,罗金鹏介绍,OneData体系建立的集团数据公共层,从设计、开发、部署和使用上保障了数据口径的规范和统一,实现数据资产全链路管理,提供标准数据输出。
统一数据标准是一项非常复杂的工作,譬如,针对UV这一相同的指标,在统一之前阿里内部竟然有10多种数据定义。据介绍,OneData数据公共层总共对30000多个数据指标进行了口径的规范和统一,梳理后缩减为3000余个。
尽管工程浩大,但是此举却为阿里带来了显著的收效。借助于OneData平台实时数据分析能力,在2015年双11当天,淘宝搜索排序中引入实时数据影响因子,实现增收数十亿元,罗金鹏表示。
在DT时代,数据暴增对存储计算成本带来很大的挑战。据罗金鹏介绍在没有建设统一的数据公共层时,阿里内部服务器需求量会在5年之后达到现在的100倍之多。而经过数据公共层的统一建设,5年后的服务器需求量相对会节约90%。
此外,阿里基于数据中台孵化了一个内部名叫“GProfile”全域用户档案的标签服务。“GProfile”根据用户行为,打上不同的标签,再推荐与买家消费能力和喜好匹配的商品。基于此每个用户在手机淘宝上搜索“连衣裙”,每个人看到的搜索结果都是不一样。
千人千面的个性化服务背后的数据基础就是“GProfile”。据罗金鹏的介绍,目前标签有300多种,如此多的标签,都是为了更精准地定位用户,从而实现更好的用户体验与精准营销。
除对内挖掘数据的价值,用技术驱动和创新内部的业务,阿里数据同时也将数据能力通过产品对外服务。而这一产品即是“生意参谋”,为商家提供多维度的数据服务,帮助商家通过数据分析来进行商业决策。
罗金鹏告诉记者,生意参谋可以用数据化来贯穿到企业管理的整体链路中,包括了,品类管理数据化、营销数据化、品牌数据化以及服务数据化。
据悉到目前为止,生意参谋已经为千万商家服务,月成交额30万元以上的商家中,逾90%在使用生意参谋;月成交金额100万元以上的商家中,逾90%每月登录生意参谋天次达20次以上。
在DT时代,数据已经成为推动商业发展的新能源,而数据中台的建设成为新能源能否在阿里巴巴生态中发挥价值的关键。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。