移动互联网已经成为互联网行业兵家竞争最激烈的领域之一,各路企业纷纷以用户需求为导向进行发展布局。
9月3日,2014年百度世界大会上,百度董事长兼CEO李彦宏与业界分享了一个关于用户行为变化的重要洞察:未来五年用户的移动需求会发生质的变化,通过语音、图像等非文字形式表达的用户需求将超过50%。
李彦宏指出,移动用户正在逐渐脱离传统键盘输入习惯,相比较键盘这样需要经过长久学习才能掌握的工具,通过语音、图像等方式表达搜索请求,是最自然的,本能的表达需求方式。它所带来用户行为的转变,也注定会成为移动互联网最重要入口。
发展心理学的研究表明,人类所获取的70%的外部信息来自视觉,因此人类跟周边世界中人和物的沟通以及交互,极其依赖于图像;而从婴幼儿牙牙学语开始,通过语言沟通实现需求表达即成为人类的本能。因此,在李彦宏看来,移动互联网正不断推动语音、图像等需求表达,这样的用户行为变化也说明未来的科技将更加回归自然、贴近人性。
当前移动网络基础能力的增强使网速大幅提高,为用户使用语音提供了良好的环境;智能设备的推陈出新,也为语音提供了高质量的输入条件。而全民低成本造图,日均数亿量级的社会化图片分享也为移动互联网提供了大量图片数据。这一趋势,在移动互联网技术依托下,让图像识别、语义理解和人机对话连在一起,帮助用户完成任务。当用户需求随着技术自由实现急剧增长,未来将足够引起一个划时代的变革。
“我们正在积极的努力,在技术上进行研发,不断提升我们的语音识别和图像识别能力,更好地满足用户的需求”,李彦宏说。
试想一下,当你在街上看到一个商标,用摄像头对其进行拍照,后台可以先进行提取,再进行模板匹配的方法进行图像结算——与其特征进行匹配,给出用户最想要的结果——包括价格、购买信息甚至一键下单;对手机说“中午我想吃汉堡”,12点准时外卖在敲门,这样的行为真正地回归了自然的方式,更方便、更人性地传递着互联网技术改变人们生活的重大意义。而这些想象,以李彦宏的趋势洞察来审视,相信会在不远的将来即将实现。
不仅如此,李彦宏在百度世界上还宣布“百度筷搜”1.0版本问世,对于这样一款仅凭概念就火爆业界的产品,“百度筷搜”已经能够实现检测油质优劣、水质酸碱度等交互功能,无疑正在向成为“非文字需求”的更多典型应用场景而努力。
尼葛洛·庞帝早在《数字化生存》中提到,信息完全取决于我们眼中所见的品质。经过近年的技术研究与布局,百度的语音、图像技术现在已经到了破茧而出的关键时刻,而李彦宏和他掌舵的百度,正依靠技术积累和创新,在把握未来用户移动需求之路上得以先行,并催生移动互联网变革的春天
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。