目前,算法与技术已经能够为我们生成大量还算过得去的音乐作品。如今,UiO的研究人员正在探索新的方案,希望帮助人们学会接受更多音乐类型与流派。
和弦、节拍、音色、节奏与和声,音乐中的种种元素共同成就了一场听觉盛宴。但是,您有没有想过自己为什么会喜欢特定类型的音乐?
“音乐是一种神奇的东西。只要一想到它,只要一听到它,你就能产生情绪上的共鸣。我们都知道它是另外一种语言,但却触摸不到它的形体。对大多数人来说,音乐永远笼罩着一层神秘的面纱。”
RITMO节奏、时间与运动跨学科研究中心研究员Olivier Latillot如是说。他正着力开发新的数字化工具,希望能让更多人享受到音乐的魔力。
而他的切入点,正是挪威民乐。
Lartillot表示,“民乐是如此丰富,但喜欢听它的人并不多。如果我们能创造出一种工具来帮助人们理解音乐,那么民乐就有可能在挪威迎来复兴。”
提升理解,打开音乐的新世界大门
Olivier Lartillot坚信,科技能够帮助人们更好地理解音乐中的不同元素,由此拓展人们对于音乐的品味。
“通常,人们只喜欢听自己熟悉的音乐风格,理由只是感觉更容易理解。但有些音乐类型显得更为复杂,也让不少人望而却步。”
“如果我们能够为人们带来更强大的音乐理解工具,就能开辟出欣赏新音乐流派的通天大道。这不仅对聆听者是件好事,同时也有助于提升整个音乐生态系统的多样性。”
事实上,就连音乐学家自己对于所研究的音乐也缺乏全面的知识储备。Latillot多年以来一直努力将先进的计算音乐分析与音乐学发展相结合,希望逐步向着正确的答案迈进。
Lartillot表示,“我们目前正在进行新的研究阶段,希望开发出能够理解音乐逻辑的智能工具。”
用小提琴训练人工智能
目前,使用计算机进行音乐分析的最佳工具,正是人工智能以及机器学习。
“具体来讲,我们可以训练机器并让它学会分辨特定类型的音乐、不同各类的音符。通过「聆听」示例,机器会逐渐理解正在播放的内容,并在处理过足够丰富的案例后真正学会自动检测音符。”
研究的第一步,就是转录挪威国家图书馆中收藏的挪威民乐目录。根据Lartillot的介绍,挪威民乐、特别是哈当厄尔小提琴,正是机器需要攻克的首要难题。
“最初我们缺少丰富的案例素材。为此,我们邀请到了音乐家、专业小提琴手Olav Luksengård Mjelva以及挪威音乐学院的学生们为我们演奏,并设计出一款软件进行声音可视化,借此把乐曲记录成乐谱。”
Lartillot的同事、博士后研究员Anders Elowsson目前正使用手动注释指导机器如何自动检测哈当厄尔小提琴奏出的音符。
Lartillot强调,“这项工作即使是在强劲的大型计算机上也可能需要数百个小时。”
下一步,也就是他们研究的当前阶段,在于检测节拍。小提琴乐曲非常复杂,但当机器掌握了节拍元素之后,距离应用形式的交互式工具也就不远了。
用可视化帮助理解音乐内容
Lartillot构想中的应用程序能帮助大家浏览民乐目录并不断深入探索。在找到喜爱的曲调之后,应用程序还能为您提供其他风格类似的曲目推荐。
更重要的是,大家甚至能够以观看的方式实现音乐交互。
Lartillot表示,“在观看视频片段时,观众能够体验多种感官的协同作用,由此产生更强烈的共鸣。我认为这能帮助更多人深入理解民乐的奥妙。”
工作目前还没有完成,Lartillot希望引入更多细节以超越单纯聆听带来的感受,但同时又得确保不要因细节过多而分解听众的注意力。
“这就像是一种游戏化体验:通过这款交互式应用程序,您可以从简单的可视化开始逐渐接触并理解音乐中的变化与线索,并一步步接触其他更复杂的作品。”
这款应用程序也将登陆智能手机,把技术成果引入舞台之上。
Lartillot目前正在为丹麦弦乐四重奏版的巴赫赋格曲准备可视化效果。跟随着四位音乐家演奏的一个个主题,观众将能够在大屏幕上观看不同音色如何重复演绎各个主题。
“我认为,即使是音乐阅历不广的听众,也可以通过视觉效果对音乐作品产生更深的理解。主题会一个接一个显示在屏幕上,所以当音乐家开始演奏新的重复段落时,大家就能体会到乐曲创作中的模式。”
古老民谣的混音版本
他开发的应用程序还提供另外一种深入理解民乐的方式——您可以自由修改并制作出属于自己的混音版本。
Lartillot表示,“对我来说,这就像是种顿悟般的感觉。当我和着音乐打拍子时,作品似乎向我敞开了怀抱,我突然看到了其中的逻辑。挪威民乐一下子就抓住了我的心。”
这样的应用将面向所有人免费开放。无论您是专业DJ、作曲家还是普通听众,都可以在这里找到上世纪四十年代的珍贵录音并按自己的理解添加电子节拍。
“应用程序会检测出音符,供您转换及改变音色,例如使用电子节拍或电吉他。即使乐曲的结构不变,您也能制作出令人耳目一新的作品。”
在短期之内,这款新应用只能配合特定的民乐作品。但着眼于长远,Lartillot希望不断拓展人工智能的知识储备,将更多音乐吸纳进来。
他从中看到了更为广阔的发展空间。
“这款应用的核心,在于探索我们如何感知音乐中的细节,因此可以用于音乐治疗与音乐认知研究。我也希望音乐行业能够利用这项技术并将其融合到现有流媒体服务当中。”
这款名为MIRAGE的应用是一套基于AI技术的高级音乐分析综合系统,由RITMO节奏、时间与运动跨学科研究中心开发而成。它的目标在于提高计算机聆听并理解音乐作品的能力,并利用它思考如何促进用户的音乐理解与欣赏水平。
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。