微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

香港中文大学开发Lyra多模态框架：让AI真正听懂看懂说会话，一次性解决视听说全场景交互难题

人工智能多模态深度学习语音处理优化

香港中文大学开发Lyra多模态框架：让AI真正听懂看懂说会话，一次性解决视听说全场景交互难题

作者：科技行者

2026-03-10 10:49

分享至：

香港中文大学联合智谱科技和香港科技大学开发的Lyra多模态AI框架，实现了视觉、听觉、语言的深度融合，特别在超长语音处理方面取得重大突破，能稳定处理数小时音频内容，同时在提升性能的基础上大幅降低计算成本，为智能助手、教育、内容创作等领域带来新的技术可能性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-03-10 10:49 • 科技行者

这项由香港中文大学、智谱科技以及香港科技大学联合完成的研究发表于2024年12月的arXiv平台，论文编号为arXiv:2412.09501v1。有兴趣深入了解的读者可以通过这个编号查询完整论文。

当我们和朋友聊天时，既能听到对方说什么，也能看到对方的表情动作，还能根据理解做出恰当的回应。这种多感官交互对人类来说再自然不过，但对人工智能来说却一直是个巨大挑战。大多数AI系统要么只能"看图说话"，要么只能"听音识字"，很少有系统能同时处理视觉、听觉和语言信息，更别提进行自然流畅的对话了。

就好比让一个人蒙着眼睛堵着耳朵去理解电影情节，或者让聋哑人通过唇语理解外语对话一样困难。现有的多模态AI系统在处理复杂的现实场景时，往往力不从心。特别是在处理长时间的语音内容时，大部分系统只能应对几十秒的短音频，面对几小时的讲座或会议录音就彻底"罢工"了。

研究团队开发的Lyra框架就像是给AI装上了人类的"全感官系统"。这个系统不仅能同时处理图像、视频、文字和语音，还特别擅长处理超长的语音内容——可以轻松应对长达数小时的音频材料。更令人惊讶的是，Lyra在保证强大功能的同时，运行效率却比同类系统高出许多，就像用更少的燃料跑出了更远的距离。

Lyra的核心创新体现在三个关键突破上。首先是"跨模态语义对齐技术"，这就像教会AI理解不同语言之间的对应关系——当你用中文说"苹果"和用英文说"apple"时，它能明白指的是同一个东西。其次是"智能信息提取机制"，类似于人脑的注意力机制，能自动筛选出最重要的信息，忽略无关内容。最后是"渐进式长语音处理能力"，就像把一本厚书分章节阅读一样，将长音频分段处理，既保证理解准确性，又大大提升了处理效率。

在性能测试中，Lyra在多个权威评测基准上都取得了最佳成绩。在视觉问答任务中得分82.6，在视频理解评测中达到67.2分，在长语音理解方面更是表现卓越。这些数字背后代表着AI在理解复杂多模态内容方面的重大进步，为未来的智能助手、教育辅导、内容创作等应用奠定了坚实基础。

一、突破传统界限：为什么AI需要"全感官"能力

在日常生活中，我们处理信息时从不局限于单一感官。看电影时，我们同时接收视觉画面、背景音乐、对话内容和字幕信息，大脑会自动整合这些信息形成完整理解。然而传统的AI系统却像戴着"单色眼镜"的专家，要么专精于图像识别，要么擅长语音处理，很难同时胜任多种任务。

这种局限性在实际应用中造成了诸多困扰。比如一个智能客服系统，如果用户发来一张产品故障图片并配上语音描述，系统往往无法综合理解图像和语音信息，给出的回复可能答非所问。又比如在线教育场景中，当学生上传一段包含板书画面的讲课视频时，现有系统要么只能识别画面内容，要么只能转录语音，无法真正理解讲课的完整内容。

更具挑战性的是长语音处理问题。现实中的音频内容往往很长——一场学术讲座可能持续2-3小时，一次重要会议可能长达半天。但大多数AI系统只能处理30秒左右的短音频，面对长时间音频就像用茶杯去装大海一样力不从心。即便是当前最先进的一些系统，处理1分钟以上的音频也会出现内存溢出或理解错误的问题。

研究团队敏锐地察觉到了这个问题的根本所在。他们发现，现有的多模态系统主要关注视觉和文字的结合，对语音模态的重视程度不够，特别是缺乏语音与其他模态之间的深度融合机制。这就像建造一座大楼时，只重视地基和主体结构，却忽视了水电系统的重要性，最终影响了整座建筑的实用性。

为了解决这些问题，Lyra采用了一种全新的设计理念——以语音为核心的多模态融合架构。这种设计不是简单地把不同模态的处理器拼装在一起，而是从底层开始就考虑了各种模态之间的协同关系。就像交响乐团中，每种乐器都有自己的特色，但只有在指挥的统一协调下，才能演奏出和谐动听的乐章。

Lyra的设计哲学还体现在对效率的极致追求上。传统的多模态系统往往采用"暴力计算"的方式，把所有信息都送入大模型进行处理，虽然能保证准确性，但计算成本和时间成本都非常高昂。Lyra则采用了"智能筛选"的策略，就像一个经验丰富的图书管理员，能够快速找到读者真正需要的资料，而不是把整个图书馆的书都搬过来。

二、核心技术创新：三大法宝让AI具备超强理解力

Lyra的强大能力来源于三个核心技术创新，就像三把开启智能大门的钥匙，每一把都解决了传统系统的关键痛点。

第一把钥匙是"跨模态语义对齐技术"，这是解决不同模态信息融合问题的关键。简单来说，当人们用语音描述一张图片时，同一个意思可能用不同的表达方式。比如看到一只狗的图片，有人可能说"这是一只可爱的小狗"，有人可能说"picture shows a lovely dog"，还有人可能说得很详细"这张图片上有一只毛茸茸的金毛犬正在草地上奔跑"。对人类来说，这些表达都指向同一个视觉内容，但对AI来说却是完全不同的信息序列。

Lyra通过动态时间规整算法解决了这个问题。这个算法就像一个智能的翻译官，能够找出语音表达和视觉内容之间的对应关系。具体来说，系统会计算每个语音片段与对应文本内容之间的"距离"，然后找出最佳的对应路径。这个过程类似于GPS导航找最优路线，虽然从A点到B点有无数条路径，但系统能自动找出最短最合理的那一条。

在技术实现上，系统使用了一个叫做"潜在跨模态正则化器"的组件。当用户同时输入图片和语音时，这个组件会确保系统对语音的理解尽可能接近对相应文本的理解。就像训练一个翻译新手，让他翻译一段外语时，要尽可能贴近标准译文的意思。通过这种训练方式，系统在面对语音输入时就能保持与文本输入相同的理解水准。

第二把钥匙是"多模态LoRA流水线"，这个技术解决了在保持原有能力基础上扩展新能力的问题。传统做法就像要给一台已经很复杂的机器添加新功能，往往需要把整台机器拆开重新组装，既耗时又可能破坏原有功能。LoRA技术则像是给机器安装可插拔的模块，新功能通过小巧的适配器实现，既不影响主体结构，又能快速适应新任务。

在Lyra中，每种模态都配备了专门的LoRA适配器，就像给不同科目配备专业老师一样。处理图像时启用视觉适配器，处理语音时启用听觉适配器，需要多模态融合时则多个适配器协同工作。这种设计的巧妙之处在于，每个适配器的参数量很小，训练成本低，但组合起来却能产生强大的综合能力。

更重要的是，这种设计让Lyra能够充分利用现有的强大基础模型，比如已经在大量数据上训练过的Qwen2-VL模型。就像站在巨人的肩膀上，Lyra不需要从零开始训练，而是在现有模型的基础上进行能力扩展，大大降低了开发成本和时间。

第三把钥匙是"潜在多模态信息提取器"，这个组件解决了长内容处理的效率问题。现实中的多模态内容往往包含大量冗余信息，就像一部两小时的电影，真正推动剧情发展的关键情节可能只有几十分钟，其余时间都是铺垫和过渡。如果AI系统把每一帧画面、每一秒音频都当作同等重要的信息来处理，不仅效率低下，还可能被无关信息干扰。

Lyra的信息提取器就像一个经验丰富的编辑，能够自动识别出内容中的关键信息。具体做法是将整个处理过程分为若干个"块"，在每个块的末尾，系统会评估哪些信息与用户的问题最相关，只保留最重要的部分传递给下一个处理阶段。这种"逐步筛选"的方式让信息量呈指数级递减，从而大大提升了处理效率。

举个具体例子，当用户上传一段30分钟的讲座视频并问"讲座中提到了哪些重要观点"时，系统不会对每一帧画面和每一秒音频都进行完整分析。而是先粗略扫描全部内容，识别出可能包含重要观点的片段，然后对这些片段进行精细分析，最后整合出完整答案。这就像读一本厚书时先看目录和摘要，再有针对性地阅读重点章节一样高效。

三、超长语音处理：从几十秒到几小时的技术飞跃

在Lyra的众多创新中，超长语音处理能力可能是最让人印象深刻的突破。要理解这个突破的意义，我们先来看看传统系统面临的挑战有多么严峻。

现有的大多数语音AI系统就像短跑选手，在处理短距离任务时表现出色，但面对马拉松式的长音频就力不从心了。比如广泛使用的Whisper模型，虽然在语音识别方面表现优异，但只能处理30秒以内的音频片段。当音频长度超过这个限制时，系统要么直接报错，要么强行截断处理，导致信息丢失。

更复杂的是，长音频处理不仅仅是时间长度的问题，还涉及内存管理和计算效率的巨大挑战。一段2小时的高质量音频，如果按照传统方式处理，需要的计算资源可能超过普通服务器的承受能力。就像用小水桶去装大水库的水，不仅装不下，还可能把桶撑破。

Lyra团队采用了一种类似"分章节阅读"的策略来解决这个问题。他们将长音频切分成可管理的小段，每段大约30秒，然后对每个片段进行编码处理。但这里的关键创新在于，系统不是简单地把这些片段拼接起来，而是采用了一种叫做"扁平化拼接"的技术，确保片段之间的语义连续性不会丢失。

为了验证这种方法的有效性，研究团队进行了大量实验。他们发现，将每个音频片段压缩到300个token（可以理解为300个信息单位）是最优选择。这个数字是通过精心平衡计算效率和理解准确性得出的。少于这个数量，信息损失太大；多于这个数量，计算成本急剧上升，但准确性提升有限。

更令人兴奋的是Lyra在处理超长音频时展现出的"大海捞针"能力。研究团队设计了一个有趣的实验：他们在长达3小时的音频中随机插入一些问题和答案，然后测试系统能否准确找到这些"针"。实验结果显示，普通系统在音频超过8分钟后就开始"迷路"，而Lyra即使面对接近3小时的音频也能准确定位到目标信息。

这种能力的实现依赖于前面提到的"潜在多模态信息提取器"。在处理长音频时，这个组件会动态调整注意力分布，就像一个经验丰富的侦探，能够在海量信息中快速锁定关键线索。当用户提出特定问题时，系统会自动将注意力集中到与问题相关的音频片段上，而对其他无关内容进行智能过滤。

为了训练Lyra的长语音处理能力，研究团队构建了一个包含1.2万个样本的专门数据集。这些样本涵盖了从8分钟到2小时不等的各种长度音频，内容包括学术讲座、新闻播报、访谈节目等多种类型。更重要的是，每个音频都配备了高质量的问答对，确保系统能够学会如何从长音频中提取有用信息。

在数据集构建过程中，研究团队特别注意了内容的多样性。他们从YouTube等平台收集了涵盖人文、科技、教育、娱乐等多个领域的音频材料，确保系统能够适应不同类型的内容。同时，他们还利用大语言模型自动生成了各种类型的问题，包括总结性问题、细节性问题、推理性问题等，让系统的理解能力更加全面。

四、训练策略与数据构建：四阶段渐进式能力培养

Lyra的强大能力不是一蹴而就的，而是通过精心设计的四阶段训练过程逐步培养出来的，就像培养一个全才学生，需要从基础课程开始，逐步增加学习内容的复杂度和广度。

第一阶段是"语音对齐预训练"，这个阶段就像教孩子学会基本的语音识别能力。系统需要学习如何将声音信号转换为可理解的语言内容。研究团队使用了包括LibriSpeech和Common Voice在内的大型语音数据集，总共约100万个样本。在这个阶段，系统只需要专注于一个任务：准确理解人们在说什么，而不需要考虑其他复杂因素。

第二阶段是"多模态联合训练"，这时系统开始学习同时处理文字、图像和语音信息。这就像让学生从单科学习进入到文理并重的综合学习阶段。研究团队构建了一个包含150万样本的多模态数据集，其中既有传统的文字-图像对，也有新增的语音-图像对和文字-语音对。

在这个阶段，一个关键的创新是使用ChatTTS技术将高质量的文字指令转换为语音指令。这种做法解决了语音训练数据稀缺的问题，就像用录音设备将优秀作文朗读成有声版本，大大丰富了训练材料。为了确保语音的多样性，系统会随机选择不同的说话人声线和语调，避免过度拟合某种特定的语音模式。

第三阶段是"长语音能力扩展训练"，这是Lyra独有的训练阶段。在这个阶段，系统需要学会处理前所未有的长音频内容。研究团队专门构建了包含1.2万个长音频样本的数据集，音频长度从几分钟到2小时不等。这个阶段的训练重点是让系统学会如何在长时间的信息流中保持注意力的连续性和准确性。

第四阶段是"流式语音生成训练"，这个阶段让系统学会不仅能理解语音，还能生成自然流畅的语音回应。这就像培养学生的口语表达能力，不仅要听得懂，还要说得好。在这个阶段，系统学习如何将理解的内容转换为自然的语音输出，实现真正的双向语音交互。

整个训练过程的巧妙之处在于渐进式的能力积累。每个阶段都在前一阶段的基础上增加新的能力，而不是推倒重来。这种方式不仅提高了训练效率，还确保了系统在获得新能力的同时不会失去原有的优势。

在数据处理方面，研究团队特别注意了数据质量的把控。他们发现，在将文字转换为语音时，需要考虑口语表达的特点。比如书面语中的"选项A"在语音中更自然的表达是"A选项是"，这种细微的调整能够显著提升系统对语音指令的理解准确性。

同时，研究团队还创新性地引入了"多轮对话"训练策略。在传统训练中，系统通常只处理单轮问答，但现实应用中用户往往需要进行连续的多轮交互。为了模拟这种场景，他们在训练数据中随机选择某些轮次转换为语音输入，其他轮次保持文字形式，让系统学会在多模态混合的对话环境中保持理解的连贯性。

五、性能表现与实验验证：全方位超越现有系统

Lyra的实际性能表现就像一次全能运动会的比赛，在多个项目上都取得了令人瞩目的成绩。为了全面验证系统的能力，研究团队在多个权威评测基准上进行了严格的测试，结果显示Lyra不仅在单项能力上表现优异，在综合能力方面更是大幅超越了现有的最先进系统。

在视觉理解方面，Lyra在TextVQA基准测试中获得了82.6分的优异成绩。这个测试主要评估系统理解图像中文字信息的能力，比如识别路标上的地名、海报上的标题等。相比之下，其他先进系统如Mini-Gemini得分71.9，LLaVA-OV得分65.4。这个显著的性能提升表明Lyra在视觉文字理解方面有了质的飞跃。

在多模态综合理解方面，Lyra在MM-Vet测试中取得了63.5分的成绩，这个测试评估系统同时处理图像和文字信息的综合能力。相比其他系统普遍在50-60分区间徘徊，Lyra的表现显示了其在多模态融合方面的技术优势。这就像在需要同时考验视力、听力和反应能力的综合测试中，Lyra表现出了更好的协调性。

在视频理解领域，Lyra的表现同样令人印象深刻。在VideoMME测试中得分62.8，在MVBench测试中得分67.2，在EgoSchema测试中得分63.2。这些测试评估系统理解视频内容、跟踪时序变化、理解动作序列的能力。相比其他系统，Lyra显示出了更强的时序理解和长期记忆能力。

最引人注目的是Lyra在语音相关任务上的突破性表现。在使用语音作为输入的文档问答任务中，Lyra的准确率从传统方法的79.9%提升到了89.4%，这个12%的提升意味着系统能够更准确地理解用户的语音指令并给出正确回答。在图表问答任务中，准确率从56.0%提升到了68.5%，显示了系统在处理复杂视觉内容时的语音理解能力。

在语音识别准确性方面，Lyra在LibriSpeech基准测试中的词错误率降低到了1.8%，相比之前的4.0%有了大幅改善。这意味着系统在理解语音内容时几乎不会出现理解错误，为后续的多模态处理奠定了坚实基础。

特别值得关注的是Lyra在长语音处理方面的表现。在研究团队设计的"大海捞针"测试中，普通系统在处理超过450秒（约7.5分钟）的音频时就开始出现严重的理解错误，输出内容变得混乱重复。而经过长语音训练的Lyra能够稳定处理长达4500秒（75分钟）的音频内容，准确率达到96%。配合信息提取器后，系统甚至能够处理长达9900秒（165分钟）的音频，准确率提升到98%。

在计算效率方面，Lyra展现出了显著的优势。相比基准系统，Lyra在处理长文本时的推理速度提升了50%，内存使用量减少了50%以上。这种效率提升在处理长内容时尤为明显，使得系统能够在有限的计算资源下处理更复杂的任务。

研究团队还特别测试了Lyra的实用性。在一个模拟的VideoMME场景中，他们只提供音频信息（不包含视频画面），让Lyra仅基于音频内容回答问题。结果显示，仅凭音频信息，Lyra就能正确回答约三分之一的视频理解问题，准确率达到78.6%。这个结果表明，在很多情况下，音频信息就包含了足够丰富的内容信息，而Lyra能够充分挖掘和利用这些信息。

六、实际应用场景：从教育到娱乐的广阔前景

Lyra的强大能力为众多实际应用场景打开了新的可能性，就像一把万能钥匙，能够解锁之前无法想象的智能应用。

在教育领域，Lyra可以成为学生的智能学习助手。当学生在观看在线课程时遇到疑问，可以直接用语音提问，比如"刚才老师讲的那个公式是什么意思？"系统能够结合当前的课程画面和之前的讲解内容，给出准确的解答。更令人兴奋的是，系统能够处理长达数小时的完整课程，学生可以在任何时候提问，获得基于完整课程内容的回答。

对于在线会议和培训场景，Lyra能够实时理解会议内容，并在会后提供智能总结。参会者可以用自然语言询问"今天会议中张总提到的市场数据是多少？"或者"关于新产品发布，会议中都讨论了哪些要点？"系统能够准确定位相关信息并给出详细回答。这种能力对于提高工作效率和信息获取准确性具有重要意义。

在内容创作领域，Lyra为视频制作者和播客创作者提供了强大的辅助工具。创作者可以上传长视频或音频内容，然后用语音询问各种问题，比如"这段内容中有哪些可以单独成为短视频的精彩片段？"或者"观众可能对哪些部分感兴趣？"系统能够基于对完整内容的理解，提供有价值的创作建议。

对于新闻媒体和信息分析行业，Lyra能够快速处理大量的音视频新闻内容。新闻编辑可以上传一天的新闻广播录音，然后询问"今天关于经济政策的报道有哪些主要观点？"或者"有没有提到某个特定公司的消息？"系统能够在海量信息中快速定位相关内容，大大提高信息筛选和分析的效率。

在客户服务领域，Lyra可以处理复杂的多媒体咨询。当客户发送包含产品图片的语音消息描述问题时，系统能够同时理解图片内容和语音描述，提供更准确的技术支持。这种多模态理解能力能够显著提升客户服务的质量和效率。

对于残障人士辅助技术，Lyra展现出了巨大的应用潜力。视觉障碍用户可以用语音描述周围环境或上传图片，获得详细的视觉信息描述。听力障碍用户可以通过图像和文字与系统进行交互，获得基于多模态内容的智能回应。

在娱乐和社交应用中，Lyra能够为用户提供更丰富的互动体验。用户可以上传包含背景音乐的短视频，然后询问"这个视频适合配什么样的文字说明？"或者"能帮我总结一下这个视频的主要内容吗？"系统的回答会基于对视觉、音频和可能存在的文字信息的综合理解。

特别值得关注的是Lyra在多语言环境中的应用潜力。虽然当前的测试主要集中在英语环境，但系统的核心技术架构支持多语言扩展。这意味着未来可以开发支持中文、法语、德语等多种语言的版本，为全球用户提供本地化的智能服务。

七、技术优势与创新突破：效率与准确性的完美平衡

Lyra最令人印象深刻的特点是在提升性能的同时显著降低了计算成本，这种"又好又省"的特性在当前的AI发展中显得尤为珍贵。

传统的多模态系统通常采用"越大越好"的设计理念，认为更大的模型、更多的参数、更长的训练时间就能带来更好的性能。但这种做法的问题是计算成本呈指数级增长，环境影响也越来越严重。Lyra则采用了一种更加智能的方法，通过技术创新而不是简单的参数堆叠来提升性能。

在模型规模方面，Lyra提供了三个版本：Mini版本只有3B参数，Base版本9B参数，Pro版本74B参数。即使是最小的Mini版本，在很多任务上的表现也超过了参数量更大的竞争系统。这就像一辆小排量汽车却能跑出大排量车的性能，体现了技术优化的重要性。

在训练数据使用方面，Lyra展现出了惊人的效率。相比其他系统动辄需要几千万样本的训练数据，Lyra总共只使用了约270万个训练样本就达到了最先进的性能。其中多模态训练使用150万样本，长语音训练只需要1.2万样本。这种数据效率的提升意味着更低的数据收集成本和更短的训练时间。

在推理效率方面，Lyra的优势更加明显。在处理长文本时，Lyra比基准系统快50%，内存使用量减少一半以上。这种效率提升在实际应用中意义重大，意味着同样的服务器资源能够处理更多的用户请求，或者相同的任务能够用更低配置的硬件完成。

Lyra的另一个重要创新是"块级信息提取"机制。传统系统在处理长内容时通常采用"全盘接收"的方式，把所有信息都送入模型处理，导致计算负担沉重。Lyra则采用了"分层过滤"的策略，在处理过程的不同阶段逐步筛选出最相关的信息。这种方法让处理效率呈指数级提升，同时保持了理解准确性。

在多模态融合方面，Lyra创新性地引入了"语音中心"的设计理念。与其他系统主要关注视觉-文字融合不同，Lyra特别重视语音与其他模态的深度整合。这种设计不仅提升了语音理解的准确性，还增强了整个系统的交互自然性。用户可以更自然地通过语音与系统交互，而不必拘泥于特定的文字格式。

Lyra还具备优秀的可扩展性。基于LoRA技术的模块化设计让系统能够轻松添加新的模态或功能，而不需要重新训练整个模型。这就像积木玩具一样，可以根据需要组合出不同的功能配置。这种灵活性对于快速适应不同应用场景具有重要价值。

在环境友好性方面，Lyra的高效设计显著降低了能源消耗和碳排放。相比需要大量GPU集群训练的传统系统，Lyra的训练和运行能耗要低得多。这种"绿色AI"的特性在当前越来越重视可持续发展的大背景下具有重要意义。

说到底，Lyra代表了AI系统发展的一个重要方向转变——从追求绝对的模型规模转向追求智能的技术优化。这种转变不仅在技术上具有革新意义，在实际应用中也更加务实和可行。

通过三年多的技术积累和创新，研究团队成功开发出了这个在多个维度都表现优异的多模态AI系统。Lyra不仅在学术评测中取得了最先进的成绩，更重要的是展现了在实际应用中的巨大潜力。从教育辅导到内容创作，从客户服务到无障碍辅助，Lyra为各行各业提供了新的技术可能性。

未来，随着技术的进一步完善和应用场景的不断拓展，类似Lyra这样的多模态AI系统有望成为人们日常生活和工作中不可或缺的智能助手。它们不仅能够理解我们的语音指令，还能看懂我们展示的图片和视频，甚至能够进行长时间的深度对话，真正实现人机交互的自然化和智能化。

对于普通用户而言，这项技术的成熟意味着未来我们与AI的交互会变得更加简单自然。不再需要学习复杂的指令格式或者适应系统的局限性，而是能够像与朋友聊天一样与AI进行多样化的交流。这种技术进步不仅提升了使用体验，更重要的是降低了AI技术的使用门槛，让更多人能够享受到人工智能带来的便利。

Q&A

Q1：Lyra多模态框架最大的技术突破是什么？

A：Lyra最大的突破是实现了以语音为核心的多模态深度融合，特别是能处理长达数小时的音频内容。相比传统系统只能处理30秒左右的短音频，Lyra可以稳定处理2小时以上的长音频，准确率达到98%，这在技术上是一个重大飞跃。

Q2：Lyra相比其他AI系统有什么优势？

A：Lyra在保证更强性能的同时显著提升了效率，训练数据仅需270万样本就超越了使用数千万样本的竞争系统，推理速度提升50%，内存使用减少一半以上。同时在多个权威测试中都取得了最佳成绩，特别是在语音相关任务上准确率大幅提升。

Q3：普通用户什么时候能使用到Lyra技术？

A：虽然论文发表于2024年12月，但作为学术研究成果，Lyra目前还处于实验阶段。不过基于其优异的性能表现和实用性设计，预计相关技术会逐步应用到智能助手、在线教育、内容创作等实际产品中，普通用户有望在未来1-2年内体验到相关功能。

人工智能多模态深度学习语音处理优化

分享至

0赞

好文章，需要你的鼓励

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn

微信扫一扫，关注公众号

见证连接与计算的「力量」

香港中文大学开发Lyra多模态框架：让AI真正听懂看懂说会话，一次性解决视听说全场景交互难题

至顶头条

科技行者

码客人生

奇客Solidot

高飞的电子替身

奇客情报站

文化

移动计算

大数据

创新创业

物联网

商业

社交新媒体

智能硬件

移动设备

人工智能

汽车

5G

量子计算

云计算

科学

对话科技行者

机器人新纪元

友情链接