移动互联网已经成为互联网行业兵家竞争最激烈的领域之一,各路企业纷纷以用户需求为导向进行发展布局。
9月3日,2014年百度世界大会上,百度董事长兼CEO李彦宏与业界分享了一个关于用户行为变化的重要洞察:未来五年用户的移动需求会发生质的变化,通过语音、图像等非文字形式表达的用户需求将超过50%。
李彦宏指出,移动用户正在逐渐脱离传统键盘输入习惯,相比较键盘这样需要经过长久学习才能掌握的工具,通过语音、图像等方式表达搜索请求,是最自然的,本能的表达需求方式。它所带来用户行为的转变,也注定会成为移动互联网最重要入口。
发展心理学的研究表明,人类所获取的70%的外部信息来自视觉,因此人类跟周边世界中人和物的沟通以及交互,极其依赖于图像;而从婴幼儿牙牙学语开始,通过语言沟通实现需求表达即成为人类的本能。因此,在李彦宏看来,移动互联网正不断推动语音、图像等需求表达,这样的用户行为变化也说明未来的科技将更加回归自然、贴近人性。
当前移动网络基础能力的增强使网速大幅提高,为用户使用语音提供了良好的环境;智能设备的推陈出新,也为语音提供了高质量的输入条件。而全民低成本造图,日均数亿量级的社会化图片分享也为移动互联网提供了大量图片数据。这一趋势,在移动互联网技术依托下,让图像识别、语义理解和人机对话连在一起,帮助用户完成任务。当用户需求随着技术自由实现急剧增长,未来将足够引起一个划时代的变革。
“我们正在积极的努力,在技术上进行研发,不断提升我们的语音识别和图像识别能力,更好地满足用户的需求”,李彦宏说。
试想一下,当你在街上看到一个商标,用摄像头对其进行拍照,后台可以先进行提取,再进行模板匹配的方法进行图像结算——与其特征进行匹配,给出用户最想要的结果——包括价格、购买信息甚至一键下单;对手机说“中午我想吃汉堡”,12点准时外卖在敲门,这样的行为真正地回归了自然的方式,更方便、更人性地传递着互联网技术改变人们生活的重大意义。而这些想象,以李彦宏的趋势洞察来审视,相信会在不远的将来即将实现。
不仅如此,李彦宏在百度世界上还宣布“百度筷搜”1.0版本问世,对于这样一款仅凭概念就火爆业界的产品,“百度筷搜”已经能够实现检测油质优劣、水质酸碱度等交互功能,无疑正在向成为“非文字需求”的更多典型应用场景而努力。
尼葛洛·庞帝早在《数字化生存》中提到,信息完全取决于我们眼中所见的品质。经过近年的技术研究与布局,百度的语音、图像技术现在已经到了破茧而出的关键时刻,而李彦宏和他掌舵的百度,正依靠技术积累和创新,在把握未来用户移动需求之路上得以先行,并催生移动互联网变革的春天
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。