11月16日,根据最新成绩,千亿级参数的夸克大模型登顶C-Eval和CMMLU两大权威评测榜单,多项性能优于GPT-4。在国内大模型赛道火热的当下,夸克自研大模型凭借过硬的研发能力及数据、行业、平台等优势成为新晋“学霸”。
作为国内最权威的两个大语言模型测试榜单,C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集,覆盖52个学科,是目前权威的中文AI大模型评测榜单之一。CMMLU 是由MBZUAI、上海交通大学、微软亚洲研究院共同推出,包含67个主题,专门用于评估语言模型在中文语境下的知识和推理能力。
评测过程中,夸克大模型经过了上万道专业考题的检验,覆盖几十个学科和不同学段。无论是常识问题还是社会科学知识,夸克大模型都展现出了处理复杂、多层次问题的能力。基于精调后的训练数据,夸克大模型能够更好地理解问题的上下文、逻辑结构和语义关系,从而更全面、深入地分析和解决问题。
在CMMLU榜单评测中,夸克大模型以平均77.08分的成绩位列总成绩第一,并占据社会科学和其他两个类目的首位。在C-Eval榜单中,夸克大模型平均分达到89分,稳居行业第一,同时在社会科学、人文科学和其他三个类目中位列榜首。夸克大模型同时登顶两大权威榜单,也进一步证明夸克在数据增强、模型选择、训练策略、模型融合以及模型评估上,处在行业领先地位。
同时,在国内专业考试测试中,夸克大模型的表现堪称“学霸”。不仅在中考、高考、研究生考试中超过GPT-4,包括临床执业医师资格考试、计算机等级考试、公务员考试、教师资格证考试等评测中均优于GPT-4。具备超强解题能力的夸克大模型,应用在日常学习、工作场景,有望给用户带来效率上的全面提升。
此外,夸克大模型还拥有强大的文学创作能力,能够根据用户提供的主题或关键词,生成连贯、有逻辑、有深度的文本内容,可以帮助用户撰写文章、新闻、诗歌等各类文本,支持续写、润色、仿写、批改等多种不同写作需求,进一步提高用户的创作效率。
据介绍,凭借数据、行业、知识正确性、平台等四大优势,夸克大模型应用会优先落地在通识问答、专业搜索等信息服务领域,满足年轻人学习知识和提升自我的需求。夸克将借助自研大模型全面升级,为年轻人工作、学习、生活提供更全面的服务。
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。