如何构建数据服务平台?如何让数据服务平台更好地为企业业务服务?【友盟+】基础数据部技术总监张金在2016中国数据库技术大会(DTCC)上,分享了【友盟+】的经验,他表示,整合数据是建立数据服务平台的首要任务;统一数据、统一服务、统一接口是建立数据服务平台的三大目标。
(图为:【友盟+】基础数据部技术总监 张金)
整合数据是关键
数据打通是长期困扰大数据领域的一道难题,由于数据的多源化、碎片化,以及数据结构和数据库技术的差别,导致数据很难融通,大数据的价值并没有充分挖掘出来,同时也为构建大数据平台带来了很多挑战。张金表示,“在面对迅猛发展的数据业务时,整合数据是建立数据服务平台的首要任务,这样才能提升数据存储效率和安全性,提升数据的使用效率和价值。以【友盟+】数据服务平台为例,围绕客户关心的服务构建整个数据服务平台中的数据、算法和开放三个子平台。数据平台是要解决“有什么”的问题,解决数据的整合、清洗、打通、盘点。算法平台,解决“怎么用”的问题,提供统一基础设施解决方案。开放平台,解决“方便性”的问题,完备配套设施:安全、账号、权限、计费。统一数据,统一服务,统一接口是建立数据服务平台的三大目标。“
接下来,张金进一步给出了直指三个目标的解决方案。
首先是统一数据,至少要解决五方面的问题:1、数据迁移整合,建立数据流转通路2、制定数据规范,统一研发标准,统一命名规则3、用户ID打通,ID Mapping系统4、统一指标和标签体系,确立标准,消除二义性5、建立日常数据透视,随时了解数据状况。
以ID Mapping为例
【友盟+】数据服务平台使用海量种类丰富的ID配对数据,通过算法对所有ID进行关联映射,将同一个体的多个用户ID聚合在一起,最终实现Cookie、IMEI、IDFA、第三方账号等不同场景下的用户ID全打通,从而能够全面分析全域范围下的用户行为。
以标签体系为例
【友盟+】数据服务平台根据分类梳理标签,即构造完整的标签体系,挖掘分析出“人口属性”、“长期爱好”、“短期兴趣”和“关键词标签”等人群标签,以满足各种数据应用场景中的对精准定向的需求。例如,一个跑步爱好者适合企业进行长期品牌影响,而一个马上想买鞋的人可能就需要快速而精准直接的商品推荐。
其次是统一接口,传统的方法是为每一个功能包装一个接口,这种方法存在的问题是,混乱的接口设计,错综复杂的调用关系,苦、不灵活、重复劳动,【友盟+】摸索出的新方法让业务开发工程师只需要关心2件事情:1、统一的调用方式;2、清晰的逻辑数据表。
最后是统一服务,提供统一基础设施的解决方案。
以U-DMP为例
【友盟+】数据管理平台(U-DMP),基于大数据分析的客户洞察,让企业能够轻松洞察并定向目标人群,从而更好地帮助企业进行商业营销。张金举例说:【友盟+】曾经遇到一个经典的案例,某著名电脑品牌对某款产品受众定位是高端的白领女性,但经过对购买人群的画像透视后,结果发现购买者大相径庭:大部分的受众为男性青年中等收入者。而 U-DMP这时就发挥了重要的作用,一是可以帮助企业洞悉自己的目标人群(如会员、曾经的购买者)。通过分析目标人群的画像,了解目标人群的特质(如地域分布、与其他品类的重叠受众)。从而在U-DMP上圈选出所需的特定人群,进行推荐、EDM、甚至联合营销等相关的营销手段。配合人群放大功能,进一步扩大营销受众和影响力。这项服务让企业能够轻松洞察并定向目标人群,从而最好地满足这些需求来提升客户体验。“
【友盟+】:全球领先的第三方全域大数据服务提供商,依托于自主研发的全域数据平台,为客户提供一站式数据化解决方案。一方面提供数据产品,包括APP开发工具、基础统计工具、广告效果监测工具等,另一方面提供数据交换及专业的数据分析和咨询服务,包括DMP、垂直领域数据化解决方案、数据运营分析报告等。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。