科技行者 10月15日 杭州消息(文/周雅):Michael “Monty” Widenius 又一次来中国了,身为 MySQL 之父、MariaDB 创始人,50多岁的他仍然奋战在代码第一线,他近几年频繁活跃于中国数据库圈子,这一切很大程度都是因为开源,因为阿里云。
见到Monty的这天,他刚刚结束2018杭州云栖大会·数据库开发者生态峰会的演讲,与阿里云数据库事业部总经理鸣嵩一起,宣布“阿里云正式上线企业版MairaDB”的消息,此消息意义重大,因为这是MairaDB为阿里云打造的唯一一个企业版。
未来10年,毫无疑问是数据爆炸式增长的10年,面对诸如大数据、人工智能、物联网等应用场景,云数据库就是背后的技术要塞。对企业而言,如何走在云时代的前列,选对数据库是当务之急。
熟悉MairaDB的人都知道,它是MySQL源代码的一个分支。Monty离开自己一手开发的 MySQL 之后,创办了MairaDB,两个数据库管理系统最大的区别在于,后者更加符合“开源”精神。
而MariaDB的确实表现不俗,连续5年蝉联年度Linux用户数据库选择奖(2013年-2017年),在 DB-Engines 的数据库管理系统位列14(2018年9月排名),且一直处于攀升趋势。
数据来自于DB-Engines 数据库管理系统2018年9月榜单
上图可以总结出两个数据库趋势:
· 目前榜单上的开源数据库系统与商业数据库系统平分秋色。
· 在通用领域,完全不属于任何组织的开源数据库与自研数据库将是未来的主流,这也是MariaDB得到广泛关注的原因,阿里、英特尔、腾讯都先后赞助了MariaDB。
MariaDB的诞生也与开发者一脉相承,它在大多数开发者眼中既是一个“有情怀”的数据库,也是更友好的数据库——大部分兼容MySQL,坚持开源,拥抱社区。比如引入FaceBook rocksdb做为主引擎,引入infinidb的columstore作为列存,在server层做行列存的整合,引入spider解决分布问题,贡献了maxscale中间件,特别是10.3版本动作很大(阿里云上线的正是企业版MairaDB 10.3版本)。
鸣嵩说MariaDB是“对开发者更友好的数据库”
开源虽好,但是很多开源平台也会面临在企业应用时,不易用、不好用的问题。Monty和鸣嵩都做了强调,企业版MariaDB会有一些优化的功能,领先社区版三年。
这次双方共同推出的企业版MairaDB号称为“开源价值最大化”,我们可以理解为“一劳永逸的数据库”。在鸣嵩的解读下,企业一旦购买MairaDB,阿里云将额外提供备份、诊断、升级等运维服务,相当于拥有了阿里巴巴多年在数据库积累的运维经验。
MariaDB本身也为企业级市场不断进化。比如MariaDB在欧洲服务企业级客户时,发展出窗口函数等针对性功能。
鸣嵩还介绍了更多针对企业级数据安全方面的优化。比如用户访问数据库,它的链路是要SSL加密的;另外,存储引擎有两层加密,一是数据库引擎的加密(原始的数据加密后存在存储介质上),第二是存储介质本身自带加密能力。“这些东西让你的数据库非常的安全”,鸣嵩说。
这些功能,也让开发者更方便的操纵自己的数据库,这就是MariaDB今天的价值,同时也是阿里云在服务客户时的追求的核心诉求和理念——优秀的产品,便捷的使用。
能和MariaDB实现默契的配合,也和阿里云对开源的热情和努力分不开。鸣嵩谈起阿里云的开源成绩,就像数落自家院子里的果树。
阿里云多年来在开源市场,过去十年一直致力于中国和世界的开源事业。在开源中国举行的“2017年度最受欢迎中国开源软件Top20”的评选中,阿里巴巴占据五席;GitHub评选2017年对GitHub贡献最大的十家公司榜单当中,只有阿里巴巴一家中国公司。
GitHub评选2017年对GitHub贡献最大的十家公司榜单
阿里云对于开源的热爱,从它对MariaDB的贡献可见一斑,也可以从两者源远流长的合作历史说起。
Monty本人与阿里云的合作可谓由来已久。早在2008年,阿里云就一直与MySQL社区合作不断。而2012年开始,阿里云就开始了对MariaDB项目的贡献,当前MariaDB中的多源复制,线程内存监控,数据闪回等重要功能,都是来自阿里云的贡献。尤其在AliSQL开源之后,大量AliSQL中的先进功能正在快速的合并进入MariaDB。
目前阿里巴巴已经有150+个开源项目,其中数个项目 star 破万。
做了这么多贡献,但是据阿里方面表示,阿里巴巴并没有开源项目的KPI考核,各个团队都是发自内心地将踩过的坑和总结的经验融入到开源项目中,供业界所有人使用,希望帮助他人解决问题。
Monty也认可阿里云的文化和基因,用他的话来说:“两个一起合作比单枪匹马要好一些”,并且毫不掩饰对于阿里云的赏识,他回忆,自己经常因为阿里云来到中国,去年还被邀请参加阿里云内部的组织开发会议、了解各个项目:“阿里云的开发组非常得力,是非常优秀的开发组”。
这正是社区一致的开源精神,大家都可以站在巨人的肩膀上,每个人都可以既是老师又是学生,这或许可以解释为什么技术的发展能如此充满活力。
码代码之余,Monty也有一颗热爱生活的心。据鸣嵩透露,Monty酒量非常的好,上一次来中国给阿里云的同事带了很多酒,以及“茴香味的巧克力”。Monty听了之后笑笑说道:“不过,写代码的时候不要喝酒”。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。