



科技行者 7月5日 北京消息(文/孙封蕾): 去年,第一届百度AI开发者大会,李彦宏开着一辆在Apollo无人驾驶汽车上了五环,今年,陆奇离职之后的百度, 大家更想看到的是,百度在人工智能上还会投入多少,百度人工智能的肌肉还够不够丰满。
诚然,满载着百度AI成绩单的百度AI开发者大会,信息量是很大的:L4级量产自动驾驶巴士“阿波龙”的量产下线 
,百度在AI时代两大开放平台DuerOS、Apollo公布了全新3.0版本……
然而,对未来最有想象力的发布,还要数百度自主研发的中国第一款云端全功能AI芯片“昆仑”面世。
“昆仑”是百度自主研发的中国第一款云端全功能AI芯片,分为训练型“昆仑818-300”、推理型“昆仑818-100” 
两款。“昆仑”采用14nm三星工艺生产,内存带宽可达512GB/s,运算性能高达260Tops,是目前为止业内设计算力 
最高的AI芯片,但功耗仅有100+瓦特。
 
主要参数:
14nm 三星工艺;260Tops性能;512GB/s内存带宽;100+瓦特功耗,由几万个小核心构成。
产品优势:综合来看,“昆仑”拥有高性能、高性价比、易用3大特点。 
(1)高效:针对语音、NLP、图像等专门优化;
(2)低成本:同等性能下成本降低10倍;
(3)易用:支持paddle等多个深度学习框架;编程灵活度高;灵活支持训练和预测。
懂IC产业的人都清楚,切入芯片领域,绝不是像横空出世的“iPod”,是需要积累的。
昆仑芯片的源起要追溯到2011年。为了深度学习运算的需要,百度开始基于FPGA研发AI加速器,并同期开始使用GPU 。在过去几年中,百度对FPGA和GPU都进行了大规模部署。
AI应用的爆发,对运算能力提出越来越高的要求,基于传统芯片的AI运算加速,已经不能满足需求。在大规模AI运 
算的实践探索中,百度研发出了一款专门用于AI大规模运算的芯片“昆仑”,它的运算能力比最新基于FPGA的AI加 
速器,性能提升了近30倍。
“昆仑”的诞生是百度AI加速器八年积累的成果。
随着大数据、人工智能的崛起,AI算力的需求也在不断的提升中。每过两年数据便会翻一番,而计算模型的复杂度 
对算力的要求则会有5倍的增长。这意味着,每过两年,AI对算力的要求会有十倍的提升。
“昆仑”的“云端全功能”价值,既体现在对数据中心、公有云和无人车测试研发等场景的云端全场景覆盖,也包 
括了对于常见的开源深度学习算法之外的,大规模语音识别、搜索排序、自然语言处理、自动驾驶、大规模推荐等 
具体场景的通用性适配。
这两年,计算能力的不断发展,摩尔定律在不断的接受挑战。
传统计算硬件还在发展,只是速率慢了。但同时,随着大数据、人工智能的崛起,需要AI运算处理的数据,差不多每24个月就至少增长一倍,建构模型的复杂度是原来的五倍,与之相关,就需要计算能力强大十倍芯片能及时跟上。这一计算能力的提升,需要算法、软件和硬件工艺相互配合共同来完成。这就是AI时代的新摩尔定律。
基于百度AI完善的技术布局、繁荣的生态,百度AI芯片更容易与AI深度学习框架、AI应用形成“组合拳”。
芯片是人工智能布局中处于最上游的部分,想象不言而喻。之前备受质疑的,百度在人工智能布局中的投入和决心,也是一个很好的回应。
 0赞
 0赞好文章,需要你的鼓励
 推荐文章
 推荐文章
浙江大学团队提出动态专家搜索方法,让AI能根据不同问题灵活调整内部专家配置。该方法在数学、编程等任务上显著提升推理准确率,且不增加计算成本。研究发现不同类型问题偏爱不同专家配置,为AI推理优化开辟新路径。
清华大学研究团队提出SIRI方法,通过"压缩-扩张"交替训练策略,成功解决了大型推理模型"话多且准确率低"的问题。实验显示,该方法在数学竞赛题上将模型准确率提升43.2%的同时,输出长度减少46.9%,真正实现了效率与性能的双重优化,为AI模型训练提供了新思路。
南洋理工大学与腾讯联合研究团队开发出Rolling Forcing技术,实现AI视频实时流式生成的重大突破。该技术通过滚动窗口联合去噪、注意力锚点机制和高效训练算法三项创新,解决了长视频生成中的错误累积问题,可在单GPU上以16fps速度生成多分钟高质量视频,延迟仅0.76秒,质量漂移指标从传统方法的1.66降至0.01,为交互式媒体和内容创作开辟新可能。
华中科技大学研究团队发现,通过让AI模型学习解决几何问题,能够显著提升其空间理解能力。他们构建了包含约30000个几何题目的Euclid30K数据集,使用强化学习方法训练多个AI模型。实验结果显示,几何训练在四个空间智能测试基准上都带来显著提升,其中最佳模型达到49.6%准确率,超越此前最好成绩。这项研究揭示了基础几何知识对培养AI空间智能的重要价值。