作者;微软全球执行副总裁,微软人工智能及微软研究事业部负责人 沈向洋
上周五,我有幸在美国华盛顿大学计算机科学与工程学院的年度毕业典礼致辞。在这样一个特殊的日子里,能和这群才华横溢的年轻人及其亲友一起庆祝,我深感荣幸。
华盛顿大学计算机科学与工程学院毕业典礼——微软全球执行副总裁,微软人工智能及微软研究事业部负责人沈向洋博士与Ed Lazowska教授的合影
我认为,在计算机领域,没有任何一个时代比现在更具有魔力。我成长于上世纪60年代的中国,那是一个技术突飞猛进的时代——人类进入太空、卫星发射、超音速飞机试飞。那时,虽然计算机才刚出现,但却已经成为许多重大突破的核心。
那时,我的父亲,一个高中数学教师,像大多数中国人一样,从来没见过计算机。但他们都听说过计算机,也知道它会很“大”,有可能会改变这个世界。父亲鼓励我在这个全新的领域里求学。我很幸运能来美国继续我的学业。
我们那一代的学生对人工智能非常着迷,致力于计算机视觉、语音识别和机器人科学等领域的研究。但当90年代,我从卡内基梅隆大学获得博士学位时,人工智能相关专业的毕业生却找不到好工作,因为那时人工智能还只是一个愿景。
然而,随着大数据、大规模计算能力以及先进机器学习的融合,现在的计算机科学毕业生,也许比其他专业的毕业生,更有机会加速创新,让我们的世界变得更美好。
所以我决定分享从量子计算、人工智能和混合现实三种技术中总结出的三种人生经验。
在微软,我们15年来在量子计算的研发中投入了很多。我们与全球顶级的技术人才一同提出了一种名为拓扑量子计算的方法。尽管我们做了很多努力,但目前我们还没有研发出第一个拓扑量子位。
但我坚信,我们一定会成功。除了物理学,我们可以从研究量子计算中学到很多。对我来说,它教给我的最重要的人生一课——当你在未知领域进行探索和发现时,要学会拥抱未知。
即使是这个时代最聪明的人也无法预测未来之路。1943年,伟大的IBM首席执行官Thomas J. Watson曾说过一句名言: “我认为,世界仅需要五台计算机。” 没有人真正知道未来会是什么样。所以你必须以开放心态,来调整自身,以最好的状态来迎接未来的未知和意外。
每当谈到人工智能,很多人会担心失业或人类被机器人取代。而我最担心的则是人工智能存在偏见。我们必须建立能够在我们这一多样化的世界中平等地倾听所有人的声音、识别所有的面孔的人工智能系统,从而为每个人创造最美好的未来。
但是,通过我们的数据集和数据模型,人工智能反映出的,是我们,作为一个社会,我们是有偏见的。那么,我们如何编写程序,来确保计算机不会承继或放大我们的缺点呢?这是一个超越技术本身、也不是单纯可以靠技术来解决的难题。
一切都要从我们人类自身开始:我们需要拓宽自己的视野,学会欣赏彼此间的差异。艾萨克·牛顿爵士曾说过:“我们造的墙太多,而桥太少。”
作为一个在两个国家成长,并领导跨国团队的人,我目睹了多样化团队如何取得最出色的成就。
所以,追求那些可以让你体验不同文化、扩展视野的工作。保持开放的心态,行万里路,不断向他人学习。最终,你能学会更好地思考。你也能够为每一个人创造、发明更好的东西。
有些读者可能已经用过微软的HoloLens混合现实。HoloLens是我最喜欢的产品之一,因为它代表了我所相信的计算机科学未来的多学科化——涵盖软件、硬件、芯片、光学、视觉、图形,以及更多。
但HoloLens给我们的人生启迪远不仅限于科技。HoloLens的宣传语总结得很好——当你改变你看待世界的方式时,你就改变了你所看到的世界。
我引用了这样一段给人启迪的话,来结束我的毕业典礼致辞:
“愿你得到启迪,以不同的视角去看待生活、追求新事物。
愿你得到启迪,追随自己的梦想,到未知的领域。
愿你得到启迪,探索你以为不可能中的可能。
想象力是我们唯一的束缚。”
我已经迫不及待地想看到这一代才华横溢的年轻人为我们的世界做出的贡献。致所有的2018届毕业生——祝贺你们,请记住:未来将由你们来创造。
华盛顿大学计算机科学与工程学院毕业典礼
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。