上海,中国 – 2021年1月19日- 在国际权威的多目标跟踪挑战(Multiple Object Tracking Challenge,MOT)MOT20榜单上,紫光展锐多媒体算法的mota指标超过70分,拿下全球冠军。这也是MOT20 Challenge榜单上唯一一家超过70分的企业,彰显了紫光展锐在多目标跟踪领域的业界领先水平。
MOT Challenge是多目标跟踪领域最权威的国际测评平台,由慕尼黑工业大学、阿德莱德大学、苏黎世联邦理工学院以及达姆施塔特工业大学联合创办。MOT Challenge 提供了非常准确的标注数据和全面的评估指标,用以评估跟踪算法、行人检测器的性能。
其中,MOT 20 benchmark包含8份新的视频序列、密集且极具挑战性的场景。这份数据集在4th BMTT MOT Challenge Workshop,CVPR 2019上首次发布,平均每帧高达246个行人,相比之前的挑战赛数据集增加了夜晚数据集,对现有SOTA的MOT算法在解决极端稠密场景、算法泛化性等方面提出了艰巨挑战。
紫光展锐在多媒体算法中针对网络结构设计、损失函数、训练数据处理等方面进行了大量的创新和探索。针对竞赛中训练集没有涉及到的场景,紫光展锐创新性的采用端到端同时检测、行人识别策略,保障了算法在实际落地时的实时性,同时针对不同的端侧算力灵活调整网络大小,可灵活配套多种芯片方案的部署。
同时参与本次竞赛的还包括牛津大学、卡耐基梅隆大学、清华大学、慕尼黑工业大学、中科院、微软等多家企业、大学和科研机构的相关团队。
多目标追踪技术作为承载监控、车载、无人机、赛事直播等应用的关键技术,可准确捕捉视频中的关键信息,为进一步的信息提取提供支持,将在智慧城市、物联网等领域得到越来越广泛的应用。
在智能监控场景中,算法可实现复杂场景下的目标自动提取、跟踪、识别,理解目标的活动状态,进而实现场景状态监测、识别等。多目标追踪技术的应用可大幅减少人工重复劳动、提高工作效率和监控系统的智能性、安全性;在赛事直播场景中,算法可自动提取运动员的运动状态,从而实现数据统计、自动导播等功能,挖掘更多的数据价值;在智能车载场景中,算法可获取道路中车辆、行人的运动信息,为自动驾驶、安全辅助等应用提供必要的决策数据支持。
图像算法正在深度融合到越来越多的垂直行业,形成乘法效应,衍生出创新的业务和应用,让人们的生活更加美好和便捷。
MOT challenge榜单官网:https://motchallenge.net/results/MOT20/?det=All
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。