
CNET科技资讯网 7月5日 北京消息(文/周雅):在今天百度AI开发者大会上,百度度秘事业部的总经理景鲲一上场,接连从口袋里掏出了三款DuerOS开发套件和一款硬件参考设计。比景鲲的“魔术”更神奇的,就是他变出来的这些开发套件。“只要接一个电源,接一个麦克风,就可以让你身边的家电设备‘说话’了。”
百度人工智能操作系统DuerOS于今年1月在CES上推出。在百度的官方定义中,DuerOS 是一个“开放平台”,一种承载新技术应用的生态系统。
DuerOS开放平台,包括智能设备开放平台和技能开放平台。而支撑这两个平台的则是DuerOS对话核心系统,通过帮助开发者最大程度降低对话式人工智能系统的应用门槛,实现“唤醒万物”。
在景鲲看来,唤醒万物的核心三要素在于:听清,听懂和满足。
1、听清是唤醒万物的第一要素。目前,百度语音识别准确率达到97%,百度深度语音识别系统Deep Speech2入选MIT 2016十大突破性技术。但这些语音技术在AI时代还远远不够。景鲲表示,“百度还做了非常多先进的技术,包括麦克风阵列、回声消除、语音唤醒、远场识别等,并将这些技术根植入家庭场景、移动场景、车载场景,实现用户听清的需求。”
2、DuerOS是最能听懂用户的开放平台,而数据多和技术深成为DuerOS听懂用户的重要支撑。数据层面,百度拥有亿级用户请求、十亿级的知识图谱实体、语音调用和音频数据、千亿的图片和网页等数据;技术层面,百度在深度学习、自然语言处理技术、多轮对话技术、搜索技术等方面具有深厚的实践经验积。
3、听懂并满足“听一首某某的歌”这样的用户需求还不够,真正用户想要的是更自然、更复杂的需求,比如“我要听我手一杯品尝你的美这首歌”,比如“想听哥哥的歌”,只有把用户在真实场景中表达的复杂请求做好,才能真正做出一个真正听懂用户需求的产品。
景鲲说,“‘听懂’的目标,就是要FreeStyle,让用户最自然地跟设备进行交互,毫无拘束。”他现场演示了利用DuerOS的多轮交互过程,这种交互只有百度的技术才能驱动。通过连续发问:“找一找本地人气最火爆的家常菜”、“雍和宫附近有吗”、“第二家有什么推荐菜”、“有wifi吗”、“好停车吗”……多轮连续展开的对话,景鲲都得到了答案。
为了更好地“唤醒万物”,百度宣布将全资收购KITT.AI,并将智能设备语音唤醒和自然语言处理等核心能力免费开放,赋能合作伙伴。KITT.AI是一家专注于语音唤醒和自然语言理解的人工智能创业公司,在2017年1月入选了CB Insights公布的“最值得关注的100家人工智能公司”,曾获得亚马逊Alexa和AI2(微软联合创始人保罗阿伦)的投资,拥有世界领先的人工智能技术。
“在听清听懂的基础上,也需要有优质丰富的资源来满足用户的需求。”景鲲介绍说,DuerOS将为开发者提供最容易上手的软硬件一体化解决方案,包括多样化的开发套件和完全开放的参考设计:
1、搭载树莓派,利用科胜讯技术的个人版。即刻申请就可以搭载一个个人可以对话的语音设备。
2、轻量版。把一元钱大小的芯片放在任何一个设备里面,设备就可以对话。
3、标准版。两麦、四麦、六麦、八麦的标准版都可以即刻申请。
4、完整一体化的参考设计。如开放电路板设计、开放结构设计、开放麦克风阵列等等。
手机、电视、冰箱等任何设备,都可以搭载DuerOS,变成一个能“听懂”的设备。
个人开发者杜志鹏现场讲述的故事,也印证了设备开放平台非常容易上手。这位来自深圳的电子工程师利用DuerOS的开发套件,将外甥的乐高玩具改造成为会说话的智能玩具。
来自度秘的百度工程师罗兴现场演示了“如何将百度DuerOS的能力接入搭载Alexa的Anker音箱”,展示了智能设备开放平台的便捷性。罗兴通过十七行代码,用1分钟的时间,让原本只会英文的音箱马上变得能听懂中国话。
景鲲表示,“目前很多公司都在做智能音箱,而百度通过打造AI时代的安卓——DuerOS,让每个人,无论你是大公司还是小公司,甚至普通开发者,都能够以低门槛打造属于自己的智能语音交互设备。”
目前,百度DuerOS已经与中信国安广视、小鱼在家、美的、海尔、联想、HTC等企业达成合作,将DuerOS的对话能力应用到多个生活场景。
好文章,需要你的鼓励
本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。
这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。
中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。
这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。