
CNET科技资讯网 7月5日 北京消息(文/周雅):在今天百度AI开发者大会上,百度度秘事业部的总经理景鲲一上场,接连从口袋里掏出了三款DuerOS开发套件和一款硬件参考设计。比景鲲的“魔术”更神奇的,就是他变出来的这些开发套件。“只要接一个电源,接一个麦克风,就可以让你身边的家电设备‘说话’了。”
百度人工智能操作系统DuerOS于今年1月在CES上推出。在百度的官方定义中,DuerOS 是一个“开放平台”,一种承载新技术应用的生态系统。
DuerOS开放平台,包括智能设备开放平台和技能开放平台。而支撑这两个平台的则是DuerOS对话核心系统,通过帮助开发者最大程度降低对话式人工智能系统的应用门槛,实现“唤醒万物”。
在景鲲看来,唤醒万物的核心三要素在于:听清,听懂和满足。
1、听清是唤醒万物的第一要素。目前,百度语音识别准确率达到97%,百度深度语音识别系统Deep Speech2入选MIT 2016十大突破性技术。但这些语音技术在AI时代还远远不够。景鲲表示,“百度还做了非常多先进的技术,包括麦克风阵列、回声消除、语音唤醒、远场识别等,并将这些技术根植入家庭场景、移动场景、车载场景,实现用户听清的需求。”
2、DuerOS是最能听懂用户的开放平台,而数据多和技术深成为DuerOS听懂用户的重要支撑。数据层面,百度拥有亿级用户请求、十亿级的知识图谱实体、语音调用和音频数据、千亿的图片和网页等数据;技术层面,百度在深度学习、自然语言处理技术、多轮对话技术、搜索技术等方面具有深厚的实践经验积。
3、听懂并满足“听一首某某的歌”这样的用户需求还不够,真正用户想要的是更自然、更复杂的需求,比如“我要听我手一杯品尝你的美这首歌”,比如“想听哥哥的歌”,只有把用户在真实场景中表达的复杂请求做好,才能真正做出一个真正听懂用户需求的产品。
景鲲说,“‘听懂’的目标,就是要FreeStyle,让用户最自然地跟设备进行交互,毫无拘束。”他现场演示了利用DuerOS的多轮交互过程,这种交互只有百度的技术才能驱动。通过连续发问:“找一找本地人气最火爆的家常菜”、“雍和宫附近有吗”、“第二家有什么推荐菜”、“有wifi吗”、“好停车吗”……多轮连续展开的对话,景鲲都得到了答案。
为了更好地“唤醒万物”,百度宣布将全资收购KITT.AI,并将智能设备语音唤醒和自然语言处理等核心能力免费开放,赋能合作伙伴。KITT.AI是一家专注于语音唤醒和自然语言理解的人工智能创业公司,在2017年1月入选了CB Insights公布的“最值得关注的100家人工智能公司”,曾获得亚马逊Alexa和AI2(微软联合创始人保罗阿伦)的投资,拥有世界领先的人工智能技术。
“在听清听懂的基础上,也需要有优质丰富的资源来满足用户的需求。”景鲲介绍说,DuerOS将为开发者提供最容易上手的软硬件一体化解决方案,包括多样化的开发套件和完全开放的参考设计:
1、搭载树莓派,利用科胜讯技术的个人版。即刻申请就可以搭载一个个人可以对话的语音设备。
2、轻量版。把一元钱大小的芯片放在任何一个设备里面,设备就可以对话。
3、标准版。两麦、四麦、六麦、八麦的标准版都可以即刻申请。
4、完整一体化的参考设计。如开放电路板设计、开放结构设计、开放麦克风阵列等等。
手机、电视、冰箱等任何设备,都可以搭载DuerOS,变成一个能“听懂”的设备。
个人开发者杜志鹏现场讲述的故事,也印证了设备开放平台非常容易上手。这位来自深圳的电子工程师利用DuerOS的开发套件,将外甥的乐高玩具改造成为会说话的智能玩具。
来自度秘的百度工程师罗兴现场演示了“如何将百度DuerOS的能力接入搭载Alexa的Anker音箱”,展示了智能设备开放平台的便捷性。罗兴通过十七行代码,用1分钟的时间,让原本只会英文的音箱马上变得能听懂中国话。
景鲲表示,“目前很多公司都在做智能音箱,而百度通过打造AI时代的安卓——DuerOS,让每个人,无论你是大公司还是小公司,甚至普通开发者,都能够以低门槛打造属于自己的智能语音交互设备。”
目前,百度DuerOS已经与中信国安广视、小鱼在家、美的、海尔、联想、HTC等企业达成合作,将DuerOS的对话能力应用到多个生活场景。
好文章,需要你的鼓励
这项由Snowflake AI Research发表的研究挑战了传统语言学对大型语言模型的批评,通过引入波兰语言学家Mańczak的理论框架,论证了LLM的成功实际上验证了"频率驱动语言"的观点。研究认为语言本质上是文本总和而非抽象系统,频率是其核心驱动力,为重新理解AI语言能力提供了新视角。
freephdlabor是耶鲁大学团队开发的开源多智能体科研自动化框架,通过创建专业化AI研究团队替代传统单一AI助手的固化工作模式。该框架实现了动态工作流程调整、无损信息传递的工作空间机制,以及人机协作的质量控制系统,能够自主完成从研究构思到论文发表的全流程科研工作,为科研民主化和效率提升提供了革命性解决方案。
德国马普智能系统研究所团队开发出专家混合模型的"即时重新布线"技术,让AI能在使用过程中动态调整专家选择策略。这种方法无需外部数据,仅通过自我分析就能优化性能,在代码生成等任务上提升显著。该技术具有即插即用特性,计算效率高,适应性强,为AI的自我进化能力提供了新思路。
Algoverse AI研究团队提出ERGO系统,通过监测AI对话时的熵值变化来检测模型困惑程度,当不确定性突然升高时自动重置对话内容。该方法在五种主流AI模型的测试中平均性能提升56.6%,显著改善了多轮对话中AI容易"迷路"的问题,为构建更可靠的AI助手提供了新思路。