CNET科技资讯网 8月15日 北京消息: 昨天,小米科技联合创始人黄江吉在微博上宣布小米人脸检测算法团队研发的新算法在FDDB人脸检测准确率榜上取得排名第一,随后小米科技董事长兼CEO雷军也第一时间转发了这条微博,指出FDDB是由马萨诸塞大学计算机系维护的全世界最具权威的人脸检测评测平台,并恭喜小米研发人员取得全球第一成绩。
这项以万韶华博士为首的小米团队研发的新算法基于深度卷积检测网络(Faster RCNN Bootstrapped by Hard Negative Mining),它的作用简单说就是,利用深度卷积检测网络,同时学习人脸和非人脸特征,从而准确识别出人脸的位置和大小。下图是FDDB官网上最新公布的人脸检测准确率召回率曲线图,横轴表示误检人脸数,纵轴表示检出率。曲线越陡峭,曲线上的点越接近(0,1),表示检测器性能越好。从离散情况来看,小米团队在人脸识别检出率上明显高于其他研究团队。
FDDB (Face Detection Data Set and Benchmark),是由马萨诸塞大学计算机系维护的一套公开数据库,为来自全世界的研究者提供一个标准的人脸检测评测平台,其中涵盖在自然环境下的各种姿态的人脸。像百度、腾讯、360等国内互联网大公司也都建立了人脸检测算法团队,积极参与FDDB平台的评测。小米的研发团队能够在众多的国内外团队中脱颖而出,取得全球排行榜第一,标志着小米在人脸检测评测方面取得了突破性的进展。
目前小米云相册服务每天存储量已达1.2亿张,总量超过500亿张。未来小米人脸检测新算法会在优化及测试后替代老的算法,会有助于小米手机用户使用相册服务时检测到更多的人脸。
2015年6月5日,MIUI发布了一个新功能——面孔相册。小米云相册利用图像分析技术,可以自动地对云相册照片内容按照面孔进行分类整理。凭借此项技术实现,小米成为国内首家在手机系统层面发布该功能的手机厂商,极大地提高了用户在茫茫手机相册中找人的效率。
小米的早期员工都是来自于谷歌、微软、金山等国内外优秀的高科技公司,这次取得世界领先水平的研究成果,也首次将其从事人脸算法研发的团队曝光,通过领英网站上可以查询到这一新算法项目的带头人万韶华博士毕业于美国得克萨斯州立大学奥斯汀分校计算机视觉专业,由此可见小米已经吸引到不少高水平的计算机视觉领域科研人员。
人脸检测技术是很多技术与应用的基础,既需要大量数据,也需要强大的算法与其匹配。小米本来已经在大数据+云服务方面走在各国产手机厂商的前面,这次在人脸检测算法上达到世界第一的水平,也预示着小米在人脸识别、图像理解和分类等方面正在逐渐积累自己的科技创新成果,未来有助于形成新的产品竞争力。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。