微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

微软：人脸识别应用开启创新潮算法进展才起步

微软人脸识别

微软：人脸识别应用开启创新潮算法进展才起步

作者：CNET科技资讯网

2015-07-02 00:37

分享至：

近期，微软发布了一款有趣的应用 ——“微软我们”，只需任意上传两张人物照片，就可以知道他们长的有多像，比如，测试你是否和某个明星长得很像，或者夫妻/男女朋友是不是有夫妻相等。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2015-07-02 00:37 • CNET科技资讯网

本文作者：微软亚洲研究院　孙剑

近期，微软发布了一款有趣的应用 ——“微软我们”，只需任意上传两张人物照片，就可以知道他们长的有多像，比如，测试你是否和某个明星长得很像，或者夫妻/男女朋友是不是有夫妻相等。与前一阵风靡全球的How-Old.net相似，它们都很巧妙地将人脸识别与社交网络中的人际交往结合在一起，虽然不能做到百分之百精确，但高科技加诙谐的人际交往和传播效果，可以说是人脸识别技术和社交网络发展到一定阶段、自然而然的应用创新。

Image title 开发者们可以用基于云计算平台Azure的牛津计划API实现很多有趣的想法，而作为提供人脸识别技术的中国研究团队，我们要做的除了根据用户反馈快速迭代精进API，更要从研究本源上不断优化人脸识别算法。

大量”阅读“照片学习辨识，深度学习成主流识别方式

微软亚洲研究院在人脸识别领域已经耕耘了近20年时间，从最早的子空间方法，到后来的局部描述子方法，再到现在的深度学习方法，我们历经了所有人脸识别技术的主流研究方法。

在20世纪80、90年代，人脸识别的误差还比较大，应用领域也很有限，通常在检查证件照等特定领域才会使用。当时的技术颇为简单，通常是将图像经简单的预处理后线性地映射到一个高维向量空间中。由于只是线性模型能力的不足，那时的识别准确率与今天相比大概是数10倍的差距。

在2000年～2010年，局部描述子方法成为研究主流。它在人脸的局部区域（如眉、眼、鼻、嘴等）抽取局部描述子，再线性或非线性地映射到高维向量空间中去。这类方法的识别准确率较上一阶段的子空间方法有很大提升。不过因为特征和模型始终是人工设计的，所以仍然存在一定的局限性。

从2012年至今，深度学习方法在学术界被迅速地广泛使用。通过深层神经网络训练出来的人脸识别算法极大地提高了识别精度。简而言之，就是让已经在网络结构中预设了人脸识别先验知识的神经网络大量“阅读”很多人在各种环境（例如光照，视角，表情）下拍摄到的不同人脸照片，自动学习并提取人脸各个部位和尺度的低，中，高层特征。在大量学习之后，它便能根据所提供的监督信息将不同的人分开。

随着计算机技术的发展，廉价的PC+GPU的方式可以提供上千个并行的计算单元，这让深度学习一下子在多个计算机研究领域异军突起，成就了相当多全新的研究方法。

人脸识别的基础环节

How-Old.net和“微软我们”主要是对静态的人脸照片进行识别，这只使用了人脸识别技术中的一小部分。一个完整的人脸识别系统，可以在含有人脸的图片或视频流中自动检测和跟踪人脸，进而达到识别目的，通常也叫做人像识别、面部识别。总的来说，人脸识别系统可以大致分为以下四个部分：

首先，检测人脸在哪里。首先要从照片中识别出人脸在哪里，它的大小、位置等。目前常用的是级联分类器，可以利用人工设计的特征模型或深度学习模式进行一级一级的筛选。若要加快速度，可在前期使用人工设计的特征模型，快速筛去不是人脸的部位，后期利用深度学习去精细化地判断每一个留下的部位是否是人脸。

其次，定位人脸和各个部位。在给定人脸之后，再确定出鼻子、眼睛、嘴巴等，这通常采用回归预测的方法。回归器可以有很多种，随机森林方法、深度学习方法都能实现。以深度学习为例，训练的时候告诉回归器到底眼睛在哪里、鼻尖在哪里，预测值和真实值的距离越小越好，并据此不断调整回归器的参数，用成千上万的人脸照片反复训练，直到回归器能够准确输出人脸各个器官的准确位置信息。

第三，人脸特征的匹配与识别。这个过程是将待识别的人脸特征与已经得到的人脸特征模板进行比较，根据详细程度对人脸的身份信息进行判断。使用深度学习方法可以大大简化这一过程，因为所有的特征匹配都是由神经网络自动实现，这也是目前最有效的识别方法。

最后，人脸属性的识别。用户感兴趣的人脸属性可能包含很多，比如年龄（使用在How-Old.net中），性别，表情，种族，发型，是否戴眼镜，胡子的类型。这类属性通常使用深度学习方法可直接进行分类或回归。

高识别率与用户体验

虽然经常听说有人脸识别算法的准确率在某个特定的评测数据库上已经超过人类的识别率，但在实际应用场景中，并没有一个放之四海的基准可以去衡量人脸识别算法的准确率。针对不同的应用，训练数据和算法共同决定了识别率和用户体验。

错误接受率是人脸识别中的一个重要指标，通常错误接受率越低越好。不能错放任何一个人进去，严格确保安全，但同时也可能意味着真正的用户在多次尝试刷脸之后也进不去，这大大降低了最终的用户体验。所以在实际应用中，安全与用户体验的谨慎平衡是必须要考虑的重要因素。所以，当我们看到人脸识别应用的巨大进步时，仍需要客观、严谨地对待人脸识别算法本身，时刻提醒自己，它的局限性犹存，我们还需要不断寻求更多、更有效的方法去提升它。

科学研究的每一次进步，都会催生多种多样的创新应用。深度学习、社交网络、移动互联网的兴起相互交叉，加之人脸识别研究多年的积累，开启了人脸识别应用的创新潮，它们或有趣、或实用，并且一定会越来越多。或许在不久的未来，计算机就能够通过人类的表情和肢体语言体会人类的喜怒哀乐。

微软人脸识别

分享至

0赞

好文章，需要你的鼓励

推荐文章

人工智能
科学新颖性检测
知识蒸馏

2025-06-04 17:13

利用大语言模型探索科学创新前沿：南洋理工大学团队开发检测学术新颖性的突破性方法

这项研究利用大语言模型解决科学新颖性检测难题，南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架，训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明，该方法在市场营销和NLP领域显著优于现有技术，为加速科学创新提供了有力工具。
人工智能
计算机视觉
CLIP模型改进

2025-06-04 17:13

un?CLIP：通过反转unCLIP来提升CLIP模型的视觉细节捕捉能力

un?CLIP是一项创新研究，通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现，虽然CLIP在全局图像理解方面表现出色，但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力，同时保持与CLIP原始文本编码器的语义对齐。实验结果表明，un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法，为视觉-语言模型的发展提供了新思路。
人工智能
自然语言处理
角色扮演评估

2025-06-04 16:08

角色扮演能力大考验：里尔大学研究团队开发的大语言模型角色扮演评估新标准

这项研究介绍了RPEval，一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度：情感理解、决策制定、道德对齐和角色一致性，通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先，而GPT-4o虽在决策方面表现出色，但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
人工智能
法律案例检索
生成式检索

2025-06-04 16:07

LegalSearchLM：北大团队打造突破性法律案例检索新方法，将案例检索重新定义为法律要素生成

这篇论文介绍了LegalSearchLM，一种创新的法律案例检索方法，将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集，涵盖411种犯罪类型和120万案例，并开发了能直接生成关键法律要素的检索模型。实验表明，该模型在准确率上超越传统方法6-20%，且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。