11月16日,根据最新成绩,千亿级参数的夸克大模型登顶C-Eval和CMMLU两大权威评测榜单,多项性能优于GPT-4。在国内大模型赛道火热的当下,夸克自研大模型凭借过硬的研发能力及数据、行业、平台等优势成为新晋“学霸”。
作为国内最权威的两个大语言模型测试榜单,C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集,覆盖52个学科,是目前权威的中文AI大模型评测榜单之一。CMMLU 是由MBZUAI、上海交通大学、微软亚洲研究院共同推出,包含67个主题,专门用于评估语言模型在中文语境下的知识和推理能力。
评测过程中,夸克大模型经过了上万道专业考题的检验,覆盖几十个学科和不同学段。无论是常识问题还是社会科学知识,夸克大模型都展现出了处理复杂、多层次问题的能力。基于精调后的训练数据,夸克大模型能够更好地理解问题的上下文、逻辑结构和语义关系,从而更全面、深入地分析和解决问题。
在CMMLU榜单评测中,夸克大模型以平均77.08分的成绩位列总成绩第一,并占据社会科学和其他两个类目的首位。在C-Eval榜单中,夸克大模型平均分达到89分,稳居行业第一,同时在社会科学、人文科学和其他三个类目中位列榜首。夸克大模型同时登顶两大权威榜单,也进一步证明夸克在数据增强、模型选择、训练策略、模型融合以及模型评估上,处在行业领先地位。
同时,在国内专业考试测试中,夸克大模型的表现堪称“学霸”。不仅在中考、高考、研究生考试中超过GPT-4,包括临床执业医师资格考试、计算机等级考试、公务员考试、教师资格证考试等评测中均优于GPT-4。具备超强解题能力的夸克大模型,应用在日常学习、工作场景,有望给用户带来效率上的全面提升。
此外,夸克大模型还拥有强大的文学创作能力,能够根据用户提供的主题或关键词,生成连贯、有逻辑、有深度的文本内容,可以帮助用户撰写文章、新闻、诗歌等各类文本,支持续写、润色、仿写、批改等多种不同写作需求,进一步提高用户的创作效率。
据介绍,凭借数据、行业、知识正确性、平台等四大优势,夸克大模型应用会优先落地在通识问答、专业搜索等信息服务领域,满足年轻人学习知识和提升自我的需求。夸克将借助自研大模型全面升级,为年轻人工作、学习、生活提供更全面的服务。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。