研究称,整个人类文明所获得的全部数据量,有90%是最近两年内产生的。随着移动互联大潮的席卷,预计通过网路产生的数据量还将呈几何级增长。庞大的数据资源蕴藏着无限的宝藏,过去的一年无论是企业、政府还是媒体,都在谈论大数据。有人说大数据是黄金、是竞争力,然而在这一切谈论的背后却鲜有人关注数据质量这个最根本的问题。
普元数据产品总监王轩认为,大数据处理的关键就是解决数据质量问题,规避数据错误、保障数据质量才能真正让企业从大数据应用中获得利益。
保障数据质量成为大数据发挥价值的先决条件
“企业做数据集成、数据处理的核心价值我认为是两个方面,首先当然能为企业带来更多的盈利,其次是规避风险,而实现这两个核心价值的关键就是解决数据质量问题。现在大数据环境也好,传统数据环境也好,大家面临很严重的问题在哪儿?我们做了很多数据分析和挖掘,这种分析挖掘到底对不对靠什么来衡量?有的企业是基于数据分析作出了一些营销的趋势性结论,但如果你的数据本身是错的,分析出来的结论未必有用。” 普元数据产品总监王轩表示,保证数据质量是大数据为企业带来价值的先决条件。
《大数据资产:聪明的企业怎样致胜于数据治理》一书的作者 Tony Fisher 曾提到,如果基本数据不可靠,大多数企业的大数据计划要么会失败,要么效果会低于预期。造成上述结果的关键原因在于,数据生命周期之中流入了不一致、不准确、不可靠的数据。在数据领域最流行的一个说法是“更好的数据意味着更好的决策”,这句话从来不假,在当今的大数据时代甚至更为真切。
“在我们接触的众多银行案例中,经常会遇到这种情况,做完一个数据仓库,客户信息重名的上万个,一个人1000多个账户,这都是数据质量的问题。为什么会出现这种数据问题呢?数据处理是一个复杂的过程,这其中有很多环节,从前期的数据标准、数据集成到数据处理等等,任何一个环节出错都有可能导致数据质量问题。其中数据处理是清洗数据和规避数据风险的重要环节,在这个技术领域普元做得很专注,在业内也是领先的。”王轩认为除了现有数据的处理,规避实时数据风险尤为重要的,如何在交易错误时即时阻断数据错误是保障数据质量的重要手段。由此普元早就提出大数据平台产品线的概念,把所有这些环节需要的技术手段都囊括进来,这正是普元正在修炼的‘秘籍’。”
普元大数据产品家族 助力企业大数据淘金
一直以来,国内大型企业主要采用国外的数据处理软件,随着技术的扁平化,国内的数据处理软件技术越来越纯熟,价格相对于国外‘大佬’来说更具竞争力。在数据处理市场国产软件越来越受青睐,一方面原因是企业成本,一方面则是信息安全。
“本土化的软件更适合国内企业的业务需求,自主掌握知识产权的产品对企业来说安全性更高,IT成本极大降低的同时安全性又得到了提高,企业何乐而不为。”王轩表示。
普元从2010年开始涉足大数据领域, “普元数据处理软件平台领先的技术和方法论可以从根本帮助用户解决数据质量的问题,普元的复杂事件处理平台则帮助用户实时规避数据风险,普元完备的大数据产品家族提供从咨询、数据集成、数据治理到可视化的‘一站式’服务更是解除了企业大数据应用的后顾之忧。”王轩指出普元大数据产品已具备丰富的功能。
目前普元的大数据产品家族分为四大平台,分别是智慧数据应用平台、复杂事件处理平台、数据质量平台和元数据管理平台。“普元的大数据产品线在业内是一流和领先的,这一点并非空穴来风。我们的产品在业内特别是金融行业有多年的积淀,普元的数据平台基础软件已经应用于国家开发银行、中信银行、北京银行、上海银行等国内金融行业的重点企业,普元数据线软件产品也受到用户的广泛认可。”王轩强调。
谈到普元大数据产品在未来的发展方向时,王轩表示“普元的大数据产品家族是非常丰满的,未来普元会持续加大在大数据研发方面的投入,继续完善和扩充大数据产品,以适应新技术时代企业不断变化的数据应用需求。”
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。