CNET科技资讯网 8月15日 北京消息: 昨天,小米科技联合创始人黄江吉在微博上宣布小米人脸检测算法团队研发的新算法在FDDB人脸检测准确率榜上取得排名第一,随后小米科技董事长兼CEO雷军也第一时间转发了这条微博,指出FDDB是由马萨诸塞大学计算机系维护的全世界最具权威的人脸检测评测平台,并恭喜小米研发人员取得全球第一成绩。
这项以万韶华博士为首的小米团队研发的新算法基于深度卷积检测网络(Faster RCNN Bootstrapped by Hard Negative Mining),它的作用简单说就是,利用深度卷积检测网络,同时学习人脸和非人脸特征,从而准确识别出人脸的位置和大小。下图是FDDB官网上最新公布的人脸检测准确率召回率曲线图,横轴表示误检人脸数,纵轴表示检出率。曲线越陡峭,曲线上的点越接近(0,1),表示检测器性能越好。从离散情况来看,小米团队在人脸识别检出率上明显高于其他研究团队。
FDDB (Face Detection Data Set and Benchmark),是由马萨诸塞大学计算机系维护的一套公开数据库,为来自全世界的研究者提供一个标准的人脸检测评测平台,其中涵盖在自然环境下的各种姿态的人脸。像百度、腾讯、360等国内互联网大公司也都建立了人脸检测算法团队,积极参与FDDB平台的评测。小米的研发团队能够在众多的国内外团队中脱颖而出,取得全球排行榜第一,标志着小米在人脸检测评测方面取得了突破性的进展。
目前小米云相册服务每天存储量已达1.2亿张,总量超过500亿张。未来小米人脸检测新算法会在优化及测试后替代老的算法,会有助于小米手机用户使用相册服务时检测到更多的人脸。
2015年6月5日,MIUI发布了一个新功能——面孔相册。小米云相册利用图像分析技术,可以自动地对云相册照片内容按照面孔进行分类整理。凭借此项技术实现,小米成为国内首家在手机系统层面发布该功能的手机厂商,极大地提高了用户在茫茫手机相册中找人的效率。
小米的早期员工都是来自于谷歌、微软、金山等国内外优秀的高科技公司,这次取得世界领先水平的研究成果,也首次将其从事人脸算法研发的团队曝光,通过领英网站上可以查询到这一新算法项目的带头人万韶华博士毕业于美国得克萨斯州立大学奥斯汀分校计算机视觉专业,由此可见小米已经吸引到不少高水平的计算机视觉领域科研人员。
人脸检测技术是很多技术与应用的基础,既需要大量数据,也需要强大的算法与其匹配。小米本来已经在大数据+云服务方面走在各国产手机厂商的前面,这次在人脸检测算法上达到世界第一的水平,也预示着小米在人脸识别、图像理解和分类等方面正在逐渐积累自己的科技创新成果,未来有助于形成新的产品竞争力。
好文章,需要你的鼓励
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。
谷歌DeepMind团队开发的GraphCast是一个革命性的AI天气预测模型,能够在不到一分钟内完成10天全球天气预报,准确性超越传统方法90%的指标。该模型采用图神经网络技术,通过学习40年历史数据掌握天气变化规律,在极端天气预测方面表现卓越,能耗仅为传统方法的千分之一,为气象学领域带来了效率和精度的双重突破。