CNET科技资讯网 9月2日 北京消息(文/齐丰润): 百度世界作为每年一届百度展示自己实力与成绩的大会,一直对于整个科技行业的热点都有着引导的作用,在此次百度世界2016上自然也不例外。
2016年,人工智能成为了科技圈最大的焦点之一,在走过了大半年的时间之后,越来越多的行业应用也让我们看到了人工智能所蕴含的潜力,而此次百度世界的主题也定位AI,围绕着行业、应用、发展、前景等多个方面进行了全方位的阐述。
会议开始,李彦宏一身正装登上舞台显得气场十足,在今年6月份的百度联盟峰会上,李彦宏曾提出了“互联网的下一幕”的概念,刚登上舞台,李彦宏就对这个概念做出了定义:“互联网的下一幕就是人工智能”。
对于这样的结论,李彦宏给出了解释:“互联网的发展在此之前已经经过了两个非常重要的阶段,第一个阶段大概持续了十几年的时间,就是我们讲的PC互联网阶段。第二个阶段是在最近四五年,我们把它叫做移动互联网的阶段。对于中国市场来说,随着上网人数越来越多,上网人口的渗透率越来越高,这意味着,未来互联网的增长不能再靠人口红利来驱动了,移动互联网的时代其实正在离开我们,而能够接替移动互联网的下一幕,自然是人工智能。”
人工智能对于百度意味着什么呢?李彦宏觉得是百度核心中的核心,就是百度大脑。百度大脑由人工智能算法、百度的计算能力以及数据三个部分组成,正是有了这三个部分,百度大脑才得以运作起来。
在说完了百度大脑的组成部分后,李彦宏又给出了在这些组成部分之下,百度大脑能够实现的四大功能:语音能力、图像能力、自然语言理解能力、用户画像能力。
根据介绍,这几个能力都是属于人工智能中比较典型的应用,但是它们的发展阶段却很不一样。
语音技术现在已经进入了相对比较成熟的阶段,在很多领域中都开始进入实用阶段,识别的准确率也已经很高了,同时图像技术最近几年也有了长足的进展。这两者都属于人工智能当中认知的部分,所以深度学习的算法非常适合处理这些形式。
相对,自然语言的理解或处理能力就更加难一些,还处在一个更加早期的阶段。用户画像能力,其实从传统意义上来讲并不是人工智能的领域,但是由于近年来大数据的发展,再加上用人工智能和机器学习的方法,就可以把一个人的特征描绘得非常非常清楚。
作为目前人工智能最成熟的一部分功能,语音技术还可以被分为两个方向,语音合成和语音识别。语音识别的应用非常常见,而且随着技术的发展,准确率也越来越高。
语音合成则与语音识别功能相反,机器可以把文字转换成语音,并念读出来。而且,今天的语音合成也可以用比较自然的人的声音读出来,而不是像过去的机器一样。据悉,目前百度每天要响应2.5亿次的语音合成请求,而这一功能也被应用到了百度导航之中。
李彦宏表示:“百度大脑的语音合成能力可以让每个人都有自己的声音模型,只要按照要求说50句话,百度大脑就学会了你说话的方式,这些语音的能力会带来各种各样新的可能性。”
图像技术在专业术语中又被称为计算机视觉,也是现在广义的人工智能中非常重要的领域。除了应用在准确率高达99.7%的人脸识别中,计算机视觉也成为了百度无人车的重要组成部分。无人车的视野要比人类驾驶员好得多,这是站在车的角度所看到的世界。
除此之外,AR也是图像识别的一个重要应用,做到场景识别后,才能更好的跟用户进行交互和体验。
虽然成熟的不高,但也能够为大家带来不一样的体验,度秘就是李彦宏拿出来的最好的例子。李彦宏让度秘在现场实时解说了一段篮球视频,语言比较丰富,而且将球员的名字也都准确地叫了出来。李彦宏说:“当人工智能对于自然语言的理解一旦能够达到一定程度,它又会打开很多新的可能性。”
“用户画像是基于百度的大数据以及机器学习的方式所获得的一个能力,现在我们已经有接近10亿的用户画像,其中已经用到了千万级的细分标签。这些标签主要在两个维度上体现,一个是通用的维度,人口学特征、短期的意图、位置属性;另一个是垂直行业的特征,他在金融领域是什么样的情况,他在保险、医疗、旅游、健康等领域都有什么样的爱好、习惯,这些东西都共同构成了我们的用户画像。”
用户画像在应用中可以将用户打上标签,并将这些标签组合后描画出来,针对每一个不同的个体,做到亿人亿面,更准确地找到受众群体,创造出真正的效益。
演讲最后,李彦宏还表示,“百度大脑拥有各种各样的能力,如果这些能力赋予到全社会的每个人,它能够变换出来无穷无尽的可能性。有了这样的能力,将给各行各业的人群带来过去大家做不到的、不敢想的能力。”
同时李彦宏还表示,百度大脑会把语音、图像、自然语言理解和用户画像等能力完全开放出来,在大多数情况下免费提供这些能力。
在李彦宏的演讲结束后,百度首席科学家吴恩达也上台进行了演说,不过相比于李彦宏的应用流派,吴恩达所带来的则是对未来的分享。
演讲开始,吴恩达就表示,百度是一家人工智能公司,其旗下的众多重要产品都依赖于人工智能技术。“人工智能能做什么?第一,假如有一件事是一个正常人可以一秒以下做到的,也可以使用人工智能来自动做。第二,假如在一个具体重复发生的事情中,你可以拿到海量数据,并可以用这些数据来预测下一次的结果,那么人工智能也能做到。”
吴恩达的演讲从始至终都围绕着他带来的“三件礼物”展开,第一件是百度语音技术的应用,一款叫做百度语音输入法的APP,这款输入法两个月后会上线,从现场演示视频来看,它表现更像是一款智能语音助手,但功能显然要更丰富得多。
第二和第三件礼物分别是开放百度深度学习平台以及开放百度大脑平台,从这两点中我们可以看出,未来在人工智能方面,百度希望作为一个技术输出的角色,为更多的企业和开发者提供技术支持。
吴恩达在演讲的最后表示:“今年百度世界大会的主题是AI is the new electricity,一百年前电力为人类带来很大改变,今天人工智能也会对行业带来一样大的改变,我希望百度的人工智能技术可以帮助大家改变行业、改变社会,也希望我们可以协助你走进人工智能时代。”
以下是李彦宏、吴恩达的演讲内容全文:
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。