7月25日,WAIC 2025前一天,阶跃星辰发布会现场人头攒动,阶跃星辰在这场发布会上正式对外发布了Step 3大模型。
值得一提的是,大模型正在重塑产业格局,上海更是在积极布局人工智能产业,在WAIC 2025上,甚至邀请来了人工智能巨星杰弗里·辛顿亲临现场做主题演讲。
此外,据悉,上海人工智能产业规模达到4500亿元,规上企业超过400家,与此同时,上海还打造了大模型阵地模速空间。
在此次发布会上,阶跃星辰还官宣,上海国投将参与阶跃星辰下一轮融资,这也间接公布了阶跃星辰的融资节奏。
01 三大发布:三代大模型、与上海国投合作、成立生态联盟
实际上阶跃星辰在大会上,对外进行了三大发布。
第一项发布正是第三代基础大模型Step 3。
据发布会上公布信息显示,阶跃星辰的这一代基础大模型将在7月31日面向全球开源,并已经成为全球最强开源多模态大模型。
模型推理效率以前有很多工作,deepseek主要是针对H芯片进行了优化设计,针对更多国产算力优化和适配,Step 3从一开始就将这一问题考虑在内。
阶跃星辰创始人、CEO姜大昕在大会上指出,针对某国产卡32K上下文,这代模型推理效率最高可达到deepseek R1的300%,实测H卡分布式推理,吞吐同样提升了70%。
第二项发布是,阶跃星辰与上海国有资本投资有限公司的深度战略合作。
据悉,上海国投也将参与阶跃星辰接下来的新一轮融资。
之所以会有这样的签约,姜大昕给出的主要原因是阶跃星辰在商业化上做出的成绩。
据姜大昕介绍,阶跃星辰商业化今年的目标是10亿元,目前阶跃星辰的大模型已经在智能手机、汽车、金融、内容、城市治理方面相继落地。
第三项发布是,成立“模芯生态创新联盟”。
姜大昕指出,如何降低推理成本已经成为决定大模型应用渗透率的关键问题,而要降低成本,本质上就是要提升算力的应用效率。
为此,阶跃星辰将联合10家芯片厂商、算力平台成立模型生态创新联盟。
在大会现场,我们看到,阶跃星辰邀请来了华为、沐曦、遂原科技、壁仞科技、无问芯穹、天数智芯相关负责人到场,参与了联盟成立仪式。
这一联盟也将成为国内大模型又一个推动大模型应用快速落地的联合体。
02 什么是最适合应用的大模型?
什么是最适合应用的大模型,这是整个行业一直在思考的问题,也是姜大昕过去几年一直在思考的问题。
在此次发布会上,姜大昕将最适合应用的大模型总结为“多、开、好、省”四大“黄金法则”:
“多”是指多模态,虽然关于大模型数学和代码能力的评测榜单层出不穷,但是姜大昕认为,在大量的大模型应用场景,多模态才是刚需;
“开”是指开源,开源模型不仅有利于私有化部署,还可以很方便地进行后训练和微调,这样也才能帮助模型更好地适应下游应用的各种需求;
“好”是指模型能力要够好,不仅要有丰富的知识、善解人意,还要有严谨的逻辑能力和多步推理能力,特别是今年年初deepseek的发布,让强推理能力成为当下大模型的标配;
“省”是指成本要尽可能低,在模型能力足够好的前提下,成本要尽可能低也是用户最真实的需求。
正因如此,姜大昕,阶跃星辰此次发布的Step 3正是为了填补这一市场空白。
在现场,姜大昕就Step 3的感知能力、应用能力进行了实测,让大模型自主定位模糊菜单上的无骨鸭掌的价格,Step 3在现场演示视频中进行了很好的定位。此外,还用上千个token测试了Step 3的性能。
总而言之,阶跃星辰认为,Step 3就是现在最强的多模态开源大模型。
针对不同的应用场景,阶跃星辰此次还发布了一个Step模型全家桶,包括图像理解、图像生成、视频理解、视频生成、语音、音乐在内的多模态场景,都有Step相应的模型最支撑。
不难发现,如今的阶跃星辰将自己的焦点聚焦到了开源多模态大模型,这也是国内“AI六小虎”之一的阶跃星辰,为自己找的一条大模型商业化应用落地的重要路径。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。