CNET科技资讯网 7月5日 北京消息(文/周雅):在今天百度AI开发者大会上,百度度秘事业部的总经理景鲲一上场,接连从口袋里掏出了三款DuerOS开发套件和一款硬件参考设计。比景鲲的“魔术”更神奇的,就是他变出来的这些开发套件。“只要接一个电源,接一个麦克风,就可以让你身边的家电设备‘说话’了。”
百度人工智能操作系统DuerOS于今年1月在CES上推出。在百度的官方定义中,DuerOS 是一个“开放平台”,一种承载新技术应用的生态系统。
DuerOS开放平台,包括智能设备开放平台和技能开放平台。而支撑这两个平台的则是DuerOS对话核心系统,通过帮助开发者最大程度降低对话式人工智能系统的应用门槛,实现“唤醒万物”。
在景鲲看来,唤醒万物的核心三要素在于:听清,听懂和满足。
1、听清是唤醒万物的第一要素。目前,百度语音识别准确率达到97%,百度深度语音识别系统Deep Speech2入选MIT 2016十大突破性技术。但这些语音技术在AI时代还远远不够。景鲲表示,“百度还做了非常多先进的技术,包括麦克风阵列、回声消除、语音唤醒、远场识别等,并将这些技术根植入家庭场景、移动场景、车载场景,实现用户听清的需求。”
2、DuerOS是最能听懂用户的开放平台,而数据多和技术深成为DuerOS听懂用户的重要支撑。数据层面,百度拥有亿级用户请求、十亿级的知识图谱实体、语音调用和音频数据、千亿的图片和网页等数据;技术层面,百度在深度学习、自然语言处理技术、多轮对话技术、搜索技术等方面具有深厚的实践经验积。
3、听懂并满足“听一首某某的歌”这样的用户需求还不够,真正用户想要的是更自然、更复杂的需求,比如“我要听我手一杯品尝你的美这首歌”,比如“想听哥哥的歌”,只有把用户在真实场景中表达的复杂请求做好,才能真正做出一个真正听懂用户需求的产品。
景鲲说,“‘听懂’的目标,就是要FreeStyle,让用户最自然地跟设备进行交互,毫无拘束。”他现场演示了利用DuerOS的多轮交互过程,这种交互只有百度的技术才能驱动。通过连续发问:“找一找本地人气最火爆的家常菜”、“雍和宫附近有吗”、“第二家有什么推荐菜”、“有wifi吗”、“好停车吗”……多轮连续展开的对话,景鲲都得到了答案。
为了更好地“唤醒万物”,百度宣布将全资收购KITT.AI,并将智能设备语音唤醒和自然语言处理等核心能力免费开放,赋能合作伙伴。KITT.AI是一家专注于语音唤醒和自然语言理解的人工智能创业公司,在2017年1月入选了CB Insights公布的“最值得关注的100家人工智能公司”,曾获得亚马逊Alexa和AI2(微软联合创始人保罗阿伦)的投资,拥有世界领先的人工智能技术。
“在听清听懂的基础上,也需要有优质丰富的资源来满足用户的需求。”景鲲介绍说,DuerOS将为开发者提供最容易上手的软硬件一体化解决方案,包括多样化的开发套件和完全开放的参考设计:
1、搭载树莓派,利用科胜讯技术的个人版。即刻申请就可以搭载一个个人可以对话的语音设备。
2、轻量版。把一元钱大小的芯片放在任何一个设备里面,设备就可以对话。
3、标准版。两麦、四麦、六麦、八麦的标准版都可以即刻申请。
4、完整一体化的参考设计。如开放电路板设计、开放结构设计、开放麦克风阵列等等。
手机、电视、冰箱等任何设备,都可以搭载DuerOS,变成一个能“听懂”的设备。
个人开发者杜志鹏现场讲述的故事,也印证了设备开放平台非常容易上手。这位来自深圳的电子工程师利用DuerOS的开发套件,将外甥的乐高玩具改造成为会说话的智能玩具。
来自度秘的百度工程师罗兴现场演示了“如何将百度DuerOS的能力接入搭载Alexa的Anker音箱”,展示了智能设备开放平台的便捷性。罗兴通过十七行代码,用1分钟的时间,让原本只会英文的音箱马上变得能听懂中国话。
景鲲表示,“目前很多公司都在做智能音箱,而百度通过打造AI时代的安卓——DuerOS,让每个人,无论你是大公司还是小公司,甚至普通开发者,都能够以低门槛打造属于自己的智能语音交互设备。”
目前,百度DuerOS已经与中信国安广视、小鱼在家、美的、海尔、联想、HTC等企业达成合作,将DuerOS的对话能力应用到多个生活场景。
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。