在联想Tech World 科技创新大会上,李彦宏作为压轴嘉宾出场,他一出场便邀请杨元庆去吃韩国菜,面对讲韩语的服务员和写满了韩语的菜单,李彦宏的解决办法是运用百度的人工智能,将韩文菜单进行语音翻译。
联想TechWorld科技创新大会现场
早在今年两会期间,李彦宏提出了中国大脑提议,今天他对外展示了百度在这方面的研发进展,他说:“事实上百度在过去几年想做的一个项目是百度大脑,这相当于中国大脑的迷你版本。迷你版的智能水平达到了三四岁孩子的智力。”
百度公司创始人、董事长兼首席执行官李彦宏
计算机的人工智能不仅可以让你听得懂,也可以让你看得明白。李彦宏开场演示的百度语音翻译就是百度人工智能的一个体现。
李彦宏在现场进行演讲
根据李彦宏介绍:百度翻译APP目前可支持包括希腊语、葡萄牙语在内的18种语言。而百度翻译的运行原理就是通过大数据、人工智能以及机器的学习来实现。语音识别通过语音翻译,来领会到不同语种间的每句话的意思。当然他建议"计算机的人工智能不仅要让人听得懂,并且还要看得明白。怎样使得机器看得懂信息,是百度在人工智能方面当前需要努力解决的重要问题。"
此外百度人工智能还可以通过2D照片还原出3D场景。比如在尼泊尔地震中,很多加德满都的文化遗产都被毁了,很多用户将自己拍摄的古建筑图片传到网络上,如果是传统意义上,我们看图片都是静态孤立的一张张图,并且由于每个人拍照角度不同,就会形成无数人围绕很多古建筑拍摄了多张照片的错觉。那百度要做什么?李彦宏说“百度可以根据一张照片来判断这个人拍摄的角度是什么角度,是站在地上的什么位置去拍了古建筑。单单靠一个照片我们判断不出来角度,判断不出来时间。但是当无数个照片都串在一起的时候,我们用人工智能的技术就可以搞清楚在哪个角度是哪个时间拍的,合成起来就成为了还原的古建筑的形象。”
李彦宏还现场演示了看图说话,“它的原理是通过百度大脑智能读取信息内容,从而理解人在问什么问题。”从演示中我们可以看到看图说话能辨识人打网球、用网球拍照、辨识道路禁止停车红色标志等。
李彦宏现场演示看图说话
从历史的角度看,人工智能已经有50-60年历史,但基本上都不实用,因为头50年基本上都是学术性的探讨。不过李彦宏对人工智能的未来表示乐观。他说"最近几年随着计算能力的增加、计算成本的降低,原来我们不敢想、不能做的事情现在能想了、能做了。"而随着联想、微软、英特尔包括百度等众多公司间的不断竞争与促进,人才的激发与创造,从而可以让技术真正改变普通人的生活,从而改变整个世界。
所以,他认为:"现在只是刚刚开始,其实其实人工智能还可以做很多的东西。未来随着我们创新的继续,随着大数据积累越来越多,随着人工智能技术不断推进,百度大脑会越来越接近一个普通人或成年人的智力水平。"
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。