科技行者 10月26日 北京消息(文/Miss周):下图这一幕,在安防行业再常见不过,每当有重要案件或重要活动时,大量的公安干警就会守在屏幕面前,用肉眼搜索海量视频,效率极其低下,精准度依然不高。
现在,有一项技术正在解决这个问题——步态识别技术。如果说肉眼观察步态区分人靠的是大脑,那么教机器观察步态区分人靠的就是高科技了。而银河水滴正是这样一家教机器识别步态的公司,且一教就是近20年,可谓诲机不倦。
今天下午,银河水滴在北京发布了多款拥有独立自主知识产权的新产品:
· 银河水滴步态检索智能一体机“水滴神鉴”:通过步态识别技术,在海量视频中快速进行目标人物检索和身份识别,是全球首款步态识别商用产品;
· 银河水滴轨道交通综合智能检测车“水滴智检”:可替代工人对地铁轨道与隧道等完成智能化巡检,是中国首台小型化轨道交通综合智能监测车;
· 银河水滴智能安检仪。
· 银河水滴工业视觉平台“IndustryAI”的工业视觉检测算法将面向工业用户三年免费开放。
成立于2016年6月的银河水滴,由中科院自动化所孵化,是一家专注于计算机视觉与视频大数据分析的人工智能企业,它的杀手锏是“步态识别技术”和“工业视觉技术”。虽创办不久,但这家公司称,其创始团队在人工智能技术领域积累20多年,在步态识别领域积累17年。
扎实的技术功底,恰恰应证了银河水滴创始人兼CEO黄永祯今天在会上对于“银河水滴”名称的解读:一是高科技,二是水滴石穿的精神。
关于“步态识别”技术的开发,就不得不提到银河水滴一位成员——中国首个步态识别博士、模式识别国家重点实验室副主任、国家重大研发项目首席科学家,王亮。
2000年,刚从安徽大学硕士毕业的王亮,进入了谭铁牛院士的课题组攻读博士学位。开学后不久,谭院士就让自己的学生选择博士开题的研究方向。就这样,王亮十余年的“步态识别”研究之旅,就此启程。
从此,谭铁牛院士、王亮博士和他的团队获得的,是五个震惊世界的“第一”:发表了第一篇刊登在国际模式识别期刊上的、有关步态识别研究的文章;创建了国际上第一个多视角步态识别数据库(CASIA-A);出版了第一部步态识别专著;创立了第一间步态识别公司(银河水滴)。
银河水滴成立之初,获得中科院旗下资本中科智能和联想创投6000万元天使投资;9月20日,银河水滴还连续第二次进入了清科和投资界联合发起的中国最具投资价值企业50强(Venture50)榜单;10月16日,银河水滴完成1亿元Pre-A轮融资,由恒邦资本与华和资本领投,南山创赛基金跟投。
银河水滴的业务板块主要分三块:智慧安防(主要以步态识别带来颠覆性变革);智慧交通(主抓轨道交通领域的智能驾驶系统);智慧工业(独特的小样本深度学习技术,为工业互联网赋能)。
以步态识别技术举例,这项默默无闻的技术与虹膜识别、人脸识别同为三大识别技术。实际上,我们生活中就有“步态识别”的影子:当你在人群中寻找熟悉的人,往往并不一定要看清楚每个人的脸,而根据走路的姿势、大概的轮廓,就可以辨别出来。
而银河水滴的“步态识别”技术,则是将识别判断的主体变成了机器:通过对同一个人走路姿势的数据收集,形成一个庞大的数据库,当机器识别时,只需要将现场的数据与数据库中的数据进行比对,就能够缩小范围,从而最终确定一个人的身份。据银河水滴资料显示,其拥有全球最大的步态数据库,步态识别精度94%,可实现普通2K摄像机下最远50米的远距离,跨视角识别,且无需识别对象主动配合。
我们再来看看今天的新品——银河水滴步态检索智能一体机“水滴神鉴”:
据官方资料显示:
它是“集算法、软件和硬件为一体的便携式安防专用设备,以人的步态特征作为注册对象、通过步态识别技术在海量视频中快速进行人物检索和身份识别、快速实现目标人物查找,可广泛应用于公安、国安、检察院、法院、消防、武警、边防、海关、军队、监狱、机场、车站、港口等领域。”。“水滴神鉴”可替代人类从海量监控视频中快速查找目标人物,这样就能提升检索和识别的效率和准确度;当出现远距离、非配合、全视角(如只有侧面和背面身形)、弱光线、人脸隐蔽/遮挡、目标人物多次换装等一种或多种情况时,用步态识别技术搜检目标人物,则成了最优或唯一的选择。“水滴神鉴”能支持多段视频同时检索,也可支持对一个视频分段同时检索,最快支持六倍速度检索,1小时视频最快可用10分钟检索完毕。目前该产品已在公安系统累计试用超过1000小时,试验/参与了20多个案件的侦破,累计检索了2000G公安视频。”
黄永祯回忆道,“水滴神鉴”的诞生并不容易,研发人员参加了超过100场技术交流会,与30多个公安刑侦客户进行了深度交流,收到近300条反馈建议,半年内软件版本迭代更新几十次。也正是这种水滴石穿的精神,“水滴神鉴”获得了多方买单:目前累计订单1.35亿元,且今天与来自12个省市的合作伙伴签署了合作协议。
谈及长期规划,黄永祯说,基于步态识别技术,未来银河水滴还将在智慧医疗、智能家居、机器人等领域布局,将充分释放人工智能的技术优势,不断打磨更多优秀的产品服务社会。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。