CNET科技资讯网 9月1日 北京消息: 9月1日,2016年百度世界在北京中国大饭店举行。百度创始人、董事长兼CEO李彦宏向外界第一次揭开了百度大脑的神秘面纱。集“语音、图像、自然语言处理和用户画像”四大核心能力于一体的百度大脑,经过多年的技术积累,也让打磨了一年的进化版“度秘”,可以媲美真人的体育赛事解说、多语言翻译等能力,更让人们看到了“百度大脑”下自然语言处理技术的日新月异。
在李彦宏看来,人工智能发展到今天,语音的能力已经非常强大,并进入到了较为成熟的实用阶段;图像的能力也有了长足的进展,越来越多地被人们认可和使用;而同样作为“百度大脑”四大核心功能之一的自然语言处理技术,难度系数却更高。 “语音和图像技术更多处在认知的阶段,而自然语言理解除了要有认知能力之外,还需要逻辑推理能力、规划能力等等,目前还处在更早期的发展阶段中”,李彦宏说。今天的度秘可能在某些条件下依然听不懂人类的语言和需求,但这也意味着,自然语言的理解和处理能力还有很大的发展空间。随着自然语言处理技术的发展,度秘得以展现出更为智能的表达、也为人们拓展出更为多元的服务。
演讲的中间,李彦宏现场展示了度秘新获得的一个能力:解说篮球。著名篮球评论员杨毅也来到现场,当面向李彦宏夸赞了曾与他一起解说比赛的度秘。今年奥运会期间,度秘团队“约战”杨毅,共同解说了一场男子篮球赛。解说当天,原本看似极具挑战意味的“人机大战”,最终却变成了一次“友谊合作”——基于计算机海量存储和高效计算能力、特别是自然语言处理技术的度秘,在学习了几百场比赛之后,不仅很好地帮助杨毅分析了各种赛况,也用其截然不同的语言风格,为杨毅一贯的专业版解说增添了不少趣味性,“机智”的度秘让杨毅感到“出乎意料”,并表示,“度秘对比赛基本知识的储备可能比我还强,男篮决赛时语速的加快也更符合体育竞技的标准。可以想象,如果成为这项产品逐渐成熟,未来就可以为球迷在看比赛时解答更多问题,成为球迷的好朋友。”
对于度秘整体技术能力的进阶,李彦宏谈到,和传统的文字搜索方式相比,度秘与用户间的沟通方式已经非常不一样了。 “现在人们与度秘的交互,超过一半都是通过语音或者图像来完成的”,李彦宏指出,语音和图像的交互占比已达到56%,正逐步超越传统文字的使用频次,成为人们表达需求的主流方式。
除了度秘在自然语言处理能力上的应用,李彦宏提到,机器翻译领域对自然语言理解的技术同样相当依赖。他介绍,如今的百度翻译已经能够支持27种语言之间的互译,随着技术的不断成熟,不同语言互译衍生的几百个翻译方向能力也将逐渐纯熟,而这样的翻译也定将给人们带来不可估量的便利和价值。
好文章,需要你的鼓励
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。
谷歌DeepMind团队开发的GraphCast是一个革命性的AI天气预测模型,能够在不到一分钟内完成10天全球天气预报,准确性超越传统方法90%的指标。该模型采用图神经网络技术,通过学习40年历史数据掌握天气变化规律,在极端天气预测方面表现卓越,能耗仅为传统方法的千分之一,为气象学领域带来了效率和精度的双重突破。