考虑这样一个场景:早晨七点,阳光照进一间虚拟卧室。名叫约翰的药剂师从床上爬起来,洗漱完毕后亲吻了还在熟睡的妻子。他走到厨房给自己倒了一杯咖啡,脑子里盘算着今天药店里需要补货的药品。与此同时,他的邻居伊莎贝拉正在另一栋房子里筹划着一个情人节派对,她准备在吃完早餐后去咖啡馆发请柬。这种充满生活气息的画面并非来自某部精心编排的电影,而是真实发生在计算机服务器里的虚拟实验。
这项由斯坦福大学领导的研究发表于2023年的计算系统人机交互会议(UIST 2023),有兴趣深入了解的读者可以通过arXiv:2304.03442编号查询完整论文。长久以来,人工智能就像是坐在咨询台后的百科全书,你问它一个问题,它给出一个完美的答案,但当对话结束,它也就停滞在了原地,没有自己的生活,也没有主动的欲望。斯坦福大学的研究团队试图打破这种死板的问答模式。他们创造了一种全新的技术架构,让AI不再是单纯的答题机器,而是变成了拥有日常作息、社会关系和个人记忆的虚拟小镇居民。本质上,研究团队打造了一个数字化的舞台,他们想看看如果赋予这些AI角色独立思考和记忆的能力,它们能否在没有预设剧本的情况下,自然而然地“活”出真实的人生。
一、搭建舞台与挑选演员
为了让这场前所未有的演出顺利进行,研究团队首先需要搭建一个合适的舞台。他们借用了一种类似于经典像素游戏的二维沙盒环境,建造了一个名为“小镇”的数字世界。这里有房屋、咖啡馆、杂货店、公园,甚至还有可以供人互动的微波炉和书架。舞台布置妥当后,团队招募了25个被称为“生成式智能体”的虚拟演员。每一个智能体背后都由强大的大语言模型驱动,但它们并不知道自己是代码,只知道自己是小镇里的一员。
研究人员作为这场演出的导演,并没有给演员们发放详细的剧本。他们仅仅给每个人发了一张极简的“人物设定卡”。这张卡片上写着角色的名字、职业、家庭关系以及一点点背景故事。以约翰为例,他的设定卡上只写着他是一位药剂师,热爱帮助邻居,妻子名叫梅尔。带着这些极其微薄的初始线索,25个角色被投放到了小镇中。随后的所有故事发展、人际交往、日程安排,完全交由这些虚拟演员自己在舞台上即兴发挥。
二、赋予演员灵魂的记忆日记本
要让演员在没有剧本的情况下持续表演,最大的难题在于如何让它们记住刚才发生了什么。人类之所以拥有连贯的生活,是因为我们拥有记忆。如果没有记忆机制,虚拟角色就会像金鱼一样,前一秒刚和邻居打过招呼,后一秒就完全忘记了对方的存在。为了解决这个问题,研究团队为每个角色配备了一本无限长的“数字日记本”,在专业术语中,这被称为“记忆流”。
这本日记本记录着角色在小镇上经历的每一个细微瞬间。无论是喝了一口水、看到室友出门,还是在街角听到的一句闲聊,都会作为一条新记录被写进日记里。然而,随着时间推移,这本日记会变得无比厚重。当演员站在舞台上需要对某个突发事件做出反应时,它不可能从头到尾把整本日记翻阅一遍。为了让角色能够迅速且精准地回忆起相关信息,导演组设计了一套极为精巧的回忆提取机制。
衡量某条记忆是否应该被提取出来,主要取决于三个维度的考量。距离当下的时间远近是一个关键指标,刚刚发生的事情就像日记本上还没干透的墨水,总是最容易被想起的。与之并列的另一个维度是事件本身的分量,系统会给每条记忆打一个重要性分数,像吃早餐这种琐碎日常得分很低,而与心爱的人大吵一架或是得知小镇将要举办盛大派对这样的事件,则会被高光笔重重地标记下来,在未来极易被唤醒。在这两者之外,系统还会评估过往记录与当前情境的契合度。假设角色正在杂货店挑选苹果,那么日记中关于水果和购物的往事就会立刻浮现在脑海中,而关于昨晚看了什么电视节目的记忆则会继续沉睡。通过这种自然的回忆过滤机制,虚拟演员能够在复杂的社交场合中做出符合逻辑的即兴反应。
三、从生活琐碎中提炼人生哲理
光有日记本还不够。如果演员只是机械地翻找过去的流水账,它们依然无法展现出人类独有的深刻行为。人类不仅会经历事情,还会反思生活,从中总结出更高级的认知。为此,研究团队引入了“反思”机制。这就像是演员在每天夜深人静时,独自坐在化妆间里梳理一天的所得。
当角色的日记本累积到一定厚度时,系统就会强制它停下来进行一次思考。角色会回顾最近发生的几十条记忆,从中寻找隐藏的模式,并得出新的结论。假设约翰的日记里记录着他连续三次在街上看到邻居汤姆背着画板,又记录了一次汤姆在杂货店购买了大量的颜料。通过反思机制,约翰的脑海中会诞生一条全新的高级记忆:“汤姆极有可能是一个对绘画充满热情的艺术家”。这种从碎片化经历中提炼出的人生感悟,会被重新写进日记本的最顶端。正是凭借这种不断反思的能力,虚拟角色们开始建立起对周围人和世界的复杂认知,它们学会了推理,学会了形成自己的主观信念。
四、排练与即兴演出的完美平衡
有了深刻的记忆和反思,角色们还需要知道如何规划自己的每一天。如果所有行为都仅仅是被动地应对眼前的刺激,小镇就会变成一锅混乱的粥。为了维持生活的秩序,研究团队设计了自上而下的“计划”机制。这就如同演员在每天早晨醒来时,先在心里打一份当天的行程草稿。
角色会根据自己的人物设定和过往记忆,先定下一个粗略的总体目标,比如“今天要在药店工作并在下班后放松一下”。接着,这个宏大的目标会被逐渐拆解,细化成每个小时甚至每十分钟的具体行动:早上八点出门,八点一刻买咖啡,八点半开门营业。不过,现实生活总是充满变数,舞台上的即兴演出也是如此。当计划好去买咖啡的约翰在半路上撞见了同样出来散步的伊莎贝拉时,他的大脑会迅速运转。此时,系统会将约翰当下的行程计划与刚提取出的关于伊莎贝拉的记忆结合起来,让他做出决定。他可能会礼貌地打个招呼继续赶路,也可能会停下脚步与对方长谈一番,甚至因为聊得太投机而彻底改变后续的日程。这种在宏观计划与微观即兴反应之间的无缝切换,赋予了角色极度真实的行为质感。
五、当剧本脱离导演控制的奇妙时刻
当记忆流、反思和计划这三大机制在这个虚拟剧场中同时全速运转时,最令人振奋的现象发生了:舞台上出现了极其复杂的自发性社会群体行为。研究团队原本只是安静地坐在监视器前观察,却意外地发现演员们的生活交织成了一张庞大而精妙的网。
以伊莎贝拉策划的情人节派对为例。导演组仅仅是在她的初始设定里植入了一个想办派对的念头,除此之外没有施加任何干预。随后,伊莎贝拉自行规划了行程,她跑到咖啡馆布置场地,并在路上偶遇朋友时顺口发出了邀请。收到邀请的朋友在回家后,又把这个消息告诉了自己的家人。更令人惊叹的是,名叫玛丽亚的角色在得知派对消息后,竟然主动去向另一个角色克劳斯示好,并邀请他作为自己的伴侣一同出席。到了情人节那天,几个互相约好的角色准时出现在了咖啡馆里,而另一些角色则因为在自己的反思中认为自己“不擅长社交”或“太忙”而选择了留在家中。所有这一切的信息传递、关系建立和群体聚集,都是在这25个角色不断的即兴互动中自然涌现出来的。没有一行代码规定他们必须参加派对,一切都是生命自由演化的结果。
六、这场虚拟演出的现实意义
说到底,斯坦福大学的这场小镇实验并不只是为了看一群虚拟小人在屏幕上过家家。它向我们展示了一种全新的可能性:我们完全有能力创造出具备可信人类行为的数字化代理人。回到日常生活中,这项技术的潜在影响是极为深远的。
在娱乐领域,这意味着未来的电子游戏将迎来彻底的颠覆。游戏里的非玩家角色将不再是只会重复说三句话的木偶,他们会记住你上次对他们的态度,会因为镇上的新鲜事而改变自己的行程,甚至会在你离开时发展出属于自己的爱恨情仇。在更严肃的科学领域,这种系统可以变成社会学家的超级显微镜。研究人员可以构建一个虚拟社区,观察一条假新闻是如何在人群中传播的,或者测试一项新的公共政策可能会引发怎样的群体情绪。这为研究人类复杂社会行为提供了一个安全且成本极低的沙盒环境。
这项发表于UIST 2023的开创性研究(arXiv:2304.03442),如同在数字荒野中点燃了一束新星的火光。它证明了通过巧妙地串联起大语言模型的记忆、反思与规划能力,死板的代码也能在虚拟的舞台上绽放出耀眼的生活之光。随着技术的不断演进,或许未来的某一天,当我们再次凝视屏幕里那些忙碌的虚拟角色时,我们不禁会问自己:在这个浩瀚的宇宙剧场中,我们又何尝不是正在遵循着各自的“记忆流”,努力演好自己人生的主角呢?
Q&A
Q1:斯坦福小镇里的25个AI角色是如何记住过去发生的事情的?
A:它们依靠一种叫做“记忆流”的系统。这就像是一本无限长的人生笔记,记录下角色的所有经历。当遇到新情况时,AI会根据时间远近、事情的重要程度以及相关性,从笔记里翻找出最合适的记忆来指导当下的行动。
Q2:斯坦福大学的研究团队有没有给这些AI角色写死固定的剧本?
A:完全没有。研究人员只给每个角色提供了一个基础设定的身份背景,就像给演员发了一张简单的人物卡。之后的所有行为,包括角色之间的聊天、举办派对、甚至互相邀约,都是AI基于周围环境和自身记忆自行发展出来的即兴互动。
Q3:像斯坦福小镇这样的多智能体模拟技术未来能用在什么地方?
A:这项技术未来可以彻底改变电子游戏,让里面的非玩家角色拥有真实的日常和情感记忆。另外,它也可以作为社会学研究的工具,用来模拟社会现象的传播过程,或者用来测试新的社会政策可能会引发怎样的群体反应。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。