CNET科技资讯网 9月1日 北京消息: 9月1日,2016年百度世界在北京中国大饭店举行。百度创始人、董事长兼CEO李彦宏向外界第一次揭开了百度大脑的神秘面纱。集“语音、图像、自然语言处理和用户画像”四大核心能力于一体的百度大脑,经过多年的技术积累,也让打磨了一年的进化版“度秘”,可以媲美真人的体育赛事解说、多语言翻译等能力,更让人们看到了“百度大脑”下自然语言处理技术的日新月异。
在李彦宏看来,人工智能发展到今天,语音的能力已经非常强大,并进入到了较为成熟的实用阶段;图像的能力也有了长足的进展,越来越多地被人们认可和使用;而同样作为“百度大脑”四大核心功能之一的自然语言处理技术,难度系数却更高。 “语音和图像技术更多处在认知的阶段,而自然语言理解除了要有认知能力之外,还需要逻辑推理能力、规划能力等等,目前还处在更早期的发展阶段中”,李彦宏说。今天的度秘可能在某些条件下依然听不懂人类的语言和需求,但这也意味着,自然语言的理解和处理能力还有很大的发展空间。随着自然语言处理技术的发展,度秘得以展现出更为智能的表达、也为人们拓展出更为多元的服务。
演讲的中间,李彦宏现场展示了度秘新获得的一个能力:解说篮球。著名篮球评论员杨毅也来到现场,当面向李彦宏夸赞了曾与他一起解说比赛的度秘。今年奥运会期间,度秘团队“约战”杨毅,共同解说了一场男子篮球赛。解说当天,原本看似极具挑战意味的“人机大战”,最终却变成了一次“友谊合作”——基于计算机海量存储和高效计算能力、特别是自然语言处理技术的度秘,在学习了几百场比赛之后,不仅很好地帮助杨毅分析了各种赛况,也用其截然不同的语言风格,为杨毅一贯的专业版解说增添了不少趣味性,“机智”的度秘让杨毅感到“出乎意料”,并表示,“度秘对比赛基本知识的储备可能比我还强,男篮决赛时语速的加快也更符合体育竞技的标准。可以想象,如果成为这项产品逐渐成熟,未来就可以为球迷在看比赛时解答更多问题,成为球迷的好朋友。”
对于度秘整体技术能力的进阶,李彦宏谈到,和传统的文字搜索方式相比,度秘与用户间的沟通方式已经非常不一样了。 “现在人们与度秘的交互,超过一半都是通过语音或者图像来完成的”,李彦宏指出,语音和图像的交互占比已达到56%,正逐步超越传统文字的使用频次,成为人们表达需求的主流方式。
除了度秘在自然语言处理能力上的应用,李彦宏提到,机器翻译领域对自然语言理解的技术同样相当依赖。他介绍,如今的百度翻译已经能够支持27种语言之间的互译,随着技术的不断成熟,不同语言互译衍生的几百个翻译方向能力也将逐渐纯熟,而这样的翻译也定将给人们带来不可估量的便利和价值。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。