日前,在“AIGC与场景化应用创新”主题研讨会上,阿里智能信息事业群夸克视觉技术负责人黄锐华分享了AI技术应用于扫描场景的最新成果。他表示,AIGC给手机扫描产品打开了创新空间,搭载大模型技术的夸克扫描王对识别手写字体、复杂公式和版式理解上的准确率达到了新高度。
夸克视觉技术负责人黄锐华
经过几十年的发展,扫描技术已经日趋成熟,但是随着拍摄屏幕等新场景和用户编辑图片等个性化需求的出现,扫描行业面临着全新的机会。尤其是大模型和AIGC在大数据建模、文本理解以及内容生产带来的颠覆性变化,将给用户和企业带来新一轮的效率提升。
黄锐华表示,夸克扫描王已形成扫描能力、图像能力、内容识别和版式理解能力及学习效率工具的能力矩阵。基于自身数据多、精度高、能力全等特点,夸克扫描王愿意将自研的多项技术和能力优先开放给行业伙伴,共同开创AIGC时代下的数字服务新生态。
众所周知,教育行业对扫描技术识别率、处理速度的要求非常高。黄锐华介绍,AIGC已经在扫描的识别精度、任务类型及应用场景等方面实现突破。以夸克扫描王的识别精度为例,目前手写字符识别准确率超过99%;复杂公式识别准确率99%;识别模糊文本和复杂公式的识别率远超行业水平。夸克扫描王在学习、工作等场景下的技术突破,正在加快推动生产力工具的智能化和数字化。
不久前,应用了最新AI大模型技术能力的夸克扫描王App上线。基于大语言模型的结果优化,夸克扫描王能够在复杂场景下模仿人类思维,更精准地识别、分析和提取文字、公式及图片等内容,从而实现更完美的扫描效果。
黄锐华透露,未来,夸克扫描王还会依托大模型技术在四方面进行持续突破。首先是扫描的能力,会覆盖更多真实的用户场景。其次是图像处理能力,让技术提升扫描质量。再次是内容理解能力,让大模型会像人一样去思考和解析内容。最后是提供更多智能化的工具,提升用户解决问题的效率。
据QuestMobile发布的《2023年轻人群智能效率应用研究》报告显示,夸克扫描王借助大模型技术加持,突破传统扫描仪的场景壁垒,满足年轻人群个性化需求,夸克中00后、90后人群占比位列同类产品第一。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。