在刚刚举行的2016年百度世界上,除了李彦宏的主题演讲,还有一位让很多人感到意外的嘉宾现身,为这场技术大秀添加了一份惊喜。百度钱包代言人、著名演员胡歌与李彦宏同台为现场观众展示了一段“百度大脑”核心能力——用户画像能力。
“你的粉丝都是一些什么样的人,我们觉得你一定也很关心。”李彦宏告诉胡歌,通过大量的用户行为数据,百度大脑能够描绘出他的粉丝群体的基本特点,“我其实还是有一点惊讶,本来以为(喜欢)影视音乐(的人)应该是最大的群体,但是我们看到像旅游出行、网络购物这些都是你粉丝群体特别特别喜欢的东西。”李彦宏表示,基于数亿用户各种各样的标签获得的群体画像,还是比较可信的。
关于这项能力的基础,李彦宏介绍,“用户画像是基于百度大数据、机器学习获得的能力。现在我们已经有接近十亿的用户画像,对于他们的识别,我们已经细分到1000万级细分标签,这些标签在两个维度上体现,一个是通用维度,也有一些垂直行业的特征。”李彦宏提出,用户画像能力对于了解用户喜好、提升用户粘性非常重要,因为“我知道你是一个什么人,喜欢看什么样的东西”。李彦宏告诉大家,在过去两个月中,手机百度资讯的推荐用户量有10倍的增长,这种增长背后正是以用户兴趣、喜好为依据进行的个性化新闻推荐,“它可以做到千人千面,其实准确的讲不是千人千面,而是万人万面,亿人亿面,每一个人对于百度来说都是不同的个体,每一个人看到的信息都是不一样的。”他说。
除了为胡歌定制了粉丝群体画像之外,李彦宏还分享了百度与电影《魔兽》制作方合作,利用用户画像提升电影票房的案例。“这个做法很聪明,他把人群分成三类,一类人是不管怎样都要看的,另外一类是不管怎样都不会看的。这两类他都不太关心,关心的是他可以影响的人群,通过用户画像把这些人群从摇摆变成去看电影。”李彦宏告诉大家,用户画像能力为《魔兽》带来了200%的票房提升,让制作方惊喜不已。
对于用户画像能力的应用空间,李彦宏表示,这还需要各行各业共同思考、探索,“我个人的想象力很有限,整个百度几万人想象力也是有限的,但是这些能力如果赋予很多很多人、几亿人、几十亿人,这个可能性几乎是无限的。”
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。