4月2日,蚂蚁金服方面宣布,蚂蚁金服及阿里巴巴自主研发的通用关系数据库OceanBase已经开始支撑淘宝、天猫和聚划算的所有日常交易。
OceanBase也是真正意义上首个Created in China的数据库。蚂蚁金服相关负责人表示,这个改变意味着OceanBase已经有能力满足互联网海量数据处理的需求,可以支撑复杂、高可靠的金融级业务。
蚂蚁金服人士表示,随着互联网的发展,海量数据的处理越来越成为摆在大型互联网公司面前的问题。而传统的IT企业提供的服务,在系统可扩展性、性价比方面已经不再适用。
以数据库系统举例,一般来说,数据库系统的稳定可靠,取决于数据库软件、数据库服务器和数据库存储三方面。其中,数据库软件的维护升级总是让互联网企业比较头疼:数据库软件的维护升级有很大的风险,为了保障数据库系统的稳定可靠,企业需要匹配使用稳定性好的高端服务器和共享存储,但是这些设备不仅价格昂贵,性能和扩展能力也有限。
在这种情况下,2010年起,阿里巴巴、蚂蚁金服开始自主研发数据库系统OceanBase,这一系统从立项到开花结果经历了足足五年时间。
全球范围内,对数据库的研究是科学界研究的重要方向。2014年,被称为计算机界的诺贝尔奖的图灵奖,就授予了Michael Stonebraker,以表彰其“对现代数据库系统底层的概念与实践所做出的基础性贡献。他也是数据库领域自1973年Bachman(数据库与网状数据库)、1981年Codd(关系数据库)、1998年Gray(数据库与事务处理)之后的第四位图灵奖得主。
与传统数据库公司的产品相比,OceanBase的升级维护,不需要昂贵的共享存储、高可靠的服务器、数据库软件的许可费,可以将商业数据库成本降到一半以下。同时,分布式的系统,可以保证业务在服务器、存储、网络等出现异常情况的情况下不受影响。
在阿里系之前,中国有大批专家学者和企业致力于数据库的研究,不过几十年来没有任何一个商业化数据库产品能够替代传统高端数据库。最终反而是阿里系在商业需求的驱动下实现了这一目标。
蚂蚁金服方面表示,实际上,OceanBase此前已经通过了“双十一”考验。数据显示,2014年双十一,支付宝支付峰值就达到了285万笔/分钟,是2013年双十一支付峰值的3倍。借助OceanBase全分布、全冗余、高弹性、低成本的海量交易与数据处理架构,支付宝顺利通过交易洪峰的考验。目前,OceanBase已经可以支撑淘宝、天猫、聚划算在支付宝的所有日常交易。
据透露,未来,OceanBase还将放到阿里云上,以开放的形式,向外界输出阿里巴巴和蚂蚁金服的数据库服务能力,为整个产业的技术发展做出贡献。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。