
这项由德国慕尼黑联邦国防军大学(Bundeswehr University Munich)研究所CODE团队完成的研究,已被接收于2026年第20届AAAI网络与社会媒体国际会议(ICWSM 2026),论文编号为arXiv:2605.14352,感兴趣的读者可通过该编号查阅原文。
政治这件事,说起来似乎人人都能聊几句,但真要量化一篇文章、一条推特、一家报纸的政治倾向,却比大多数人预想的难得多。毕竟,"左"和"右"本身就不是非此即彼的标签,而是一条连续的光谱,就像彩虹里的颜色一样,从红到紫之间有无数过渡色。研究团队正是从这个出发点着手,试图造出一台能读懂德语政治文本"政治色彩"的AI仪表盘。
这件事为什么值得关注?2023年初,国际调查记者联盟曝光了一个名为"Team Jorge"的境外秘密组织。这个组织声称曾操控33场选举,手段是通过社交媒体机器人账号大规模散布虚假信息,甚至曾用一只已故的澳大利亚鸸鹋(#RIP Emmanuel)作为舆论实验,制造假热点并让真实农场陷入困境。这个案例清楚说明:社交媒体上的政治话语早已成为可以被系统性操纵的战场。研究团队认为,如果能够精确测量政治话语的倾向,就能更好地监测这种操纵,也能帮助普通人和政治分析师看清信息环境的真实面貌。
---
一、为什么不能直接用"左中右"三个格子分类
在理解这项研究的核心创新之前,先要弄清楚一个前提问题:过去的研究是怎么做的,又有什么问题?
过去十年里,学界已经积累了不少"政治立场分类"的方法。大多数做法是把文章归入几个固定的盒子里——比如"左翼""中间""右翼",或者更细一点,分成"极左""偏左""中间偏左"直到"极右"七个档次。这就像把人的体重分成"偏瘦""正常""偏重"三类,虽然方便,但完全无法表达一个人究竟胖了多少还是瘦了多少。
这种"盒子分类"的方法有两个根本性的缺陷。第一,分类边界是人为设定的,不同国家、不同语境下,同一个标签意味着截然不同的东西——美国语境下的"左翼"和德国语境下的"左翼"根本不是同一种政治动物。第二,当分析师想要聚焦于某个特定程度的政治倾向时,比如只想研究"略偏右但尚未到极右"的内容,这些固定分类就无能为力了,除非你的目标区间恰好对应某个预设类别。
研究团队的解决方案是把政治倾向变成一个连续的数字,范围从负一到正一,负一代表最左,正一代表最右,零代表中间。这样一来,不仅可以精确捕捉任何程度的倾向,还可以灵活划定分析范围,例如专门提取那些分数落在0.3到0.7之间的"中间偏右"内容进行研究。
---
二、用六个政党作为"校准刻度"的聪明办法
现在问题来了:怎么把一台大型语言模型的输出,变成这条负一到正一的刻度尺上的一个点?
研究团队想出了一个颇为巧妙的中间层设计。他们先训练模型去识别一段文字最可能代表哪个德国政党的立场,然后再把这些政党立场换算成政治光谱上的坐标。
德国主要有六个政党长期活跃于联邦议会,从最左到最右依次是:左翼党(Die Linke)、绿党(Bündnis 90/Die Grünen)、社民党(SPD)、自民党(FDP)、基民盟/基社盟(CDU/CSU)、德国选择党(AfD)。研究团队把这六个政党在政治光谱上的位置用几何方式表达出来,为每个政党分配了一个方向向量,就好像在一个半圆形的罗盘上,分别在不同角度插上六面旗子:左翼党的旗子插在最左边,AfD的旗子插在最右边,FDP的旗子插在正上方代表中间偏自由主义位置,其余三个党则根据它们与这三个参照点的相对距离插在相应位置。
具体怎么确定各党在罗盘上的精确位置呢?研究团队使用了一份名为"Wahl-O-Mat"的公开数据集。这是德国联邦公民教育局在每次联邦和州选举前发布的数字选民指南,包含了各党对一系列政治议题的官方立场(赞成、中立、反对),涵盖1998年至2021年间共1751条表态记录。通过计算每两个政党之间的立场重合度,可以精确量化它们在政治理念上的相似程度。举例来说,绿党与左翼党共同回答了2111道题,在1530道题上立场完全一致;而绿党与自民党共同回答了2249道题,却有1038道题立场相左。这套算法最终给绿党算出了一个角度约为负65.2度的位置,也就是在罗盘上位于左侧、但比左翼党更靠近中间的地方,这与现实中绿党的政治定位高度吻合。
最终,当AI模型阅读一段文字时,它会对六个政党各自输出一个"认同概率",然后把这六个概率分别乘以对应政党的方向向量,把所有结果加在一起,得到一个合成向量,这个合成向量的角度就是最终的政治倾向分数。
---
三、四套数据集:既要会做题,也要会举一反三
训练一个能真正理解政治语言的AI,需要大量有标注的训练数据。研究团队为此构建了四套相互独立的数据集,其中两套用于训练,两套用于测试"模型在从未见过的场景下是否还能表现良好"——这在机器学习领域叫做"域外泛化能力",是衡量模型真实水平的关键指标。
第一套数据来自德国联邦议院的全会速记记录。德国议院的每次全会都有速记员完整记录发言内容、发言人的政党归属,以及现场的各种打断行为——比如掌声、嘘声、插话,并标注了是哪个或哪些政党发出的。研究团队利用这些"打断记录"作为天然的情感标签:如果一段发言引来了SPD和绿党的掌声,那这段发言对这两个党来说就是"赞同"的表态。这套方法收集了2017年10月至2024年9月间的34174篇演讲,经过筛选后得到32246条有标注的政党立场数据。
第二套数据就是前面提到的Wahl-O-Mat数据集,共1751条政党立场声明。
为了让模型不只能识别正式的议会发言,还能读懂日常生活中各种风格的政治表达,研究团队用一个LLama 3.1语言模型对每条原始数据做了五花八门的改写:改写成小孩子的口吻、青少年的语气、成年人的措辞、措辞精辟的演说风格,以及社交媒体上的推特风格。这样一来,原有的33000条议院数据被扩充成了449209条,Wahl-O-Mat的1751条被扩充成了87210条,两者合并后的训练集共计570416个样本,并已公开发布供学术使用。
为了验证这些改写版本没有在不经意间引入政治偏见,研究团队使用了阿里巴巴发布的Qwen3-Embedding-8B嵌入模型,计算改写版本与原文之间的语义相似度。结果显示平均相似度为0.74,最相近的青少年风格版本平均相似度达到0.78,即使是最低的5%分位数也保持在0.54,说明改写过程基本保留了原文的政治立场内涵。
第三套数据是从33家德国报纸爬取的约1000万篇文章,均保留了发布来源和栏目分类等元数据,用于在模型训练完成后进行域外测试。第四套数据则是从德国联邦议院第20和第21届共597名议员的Twitter(现X平台)账号收集的535200条推文,每个主要政党各代表89200条,且经过筛选只保留政治相关内容。
---
四、"政治仪表盘"的实际工作流程
把所有组件组装在一起之后,这套系统的实际工作流程分为两步。
第一步是过滤。并非所有文章都含有政治内容。如果把娱乐版的明星绯闻或者体育版的赛事报道也送进政治倾向分析器,那得到的平均分数就会莫名其妙地往中间靠拢,因为这些内容没有什么政治立场。为此,研究团队专门训练了一个"是否具有政治性"的二分类器,以德国DeBERTa模型为基础,在23万多条政治与非政治文章上训练而成,F1分数高达0.99。只有当一篇文章的"政治性得分"超过0.8时,才会进入下一步分析。
第二步是打分。通过了政治性筛选的文章,被送进13个经过精调的政党分类模型之一,得到六个政党的认同概率,再经过向量运算输出最终的政治倾向分数。
以一个具体例子来感受这套系统的运作逻辑:当输入一句德文"Familienpolitik soll Wahlfreiheit ermoglichen: gute Kitas, Ganztagsschulen und flexible Arbeitsmodelle"(大意是:家庭政策应当提供选择自由,包括好的托幼机构、全日制学校和弹性工作制),Gemma2-9b模型的输出显示,这句话与绿党的认同概率最高(约28%),其次是SPD(约27%)和FDP(约45%),与AfD的相关性极低(约0.1%)。经过向量加权合并后,最终得分约为负0.33,落在左倾区间,这与句子所讨论的社会福利性内容完全符合预期。
---
五、13个模型的"选秀赛":谁才是最懂政治语言的AI
研究团队一共测试了13个大语言模型,涵盖两个大类。一类是较小的"编码器"模型,参数量在2.1亿到21亿之间,包括德语专项训练的DeBERTa-large、GottBERT、GBERT、GELECTRA,以及多语言模型xlm-roberta和覆盖15种欧洲语言的EuroBERT系列。另一类是较大的"生成式"模型,参数量在10亿到90亿之间,包括谷歌的Gemma2系列(2B和9B版本)、Gemma3-1B,以及Meta的Llama 3.2系列(1B和3B版本)。
在对议院和Wahl-O-Mat测试集的域内测试中,DeBERTa-large以F1分数0.84夺得第一,Gemma2-9b和EuroBERT-610m分列二三名,F1均为0.79。DeBERTa-large的优秀表现很大程度上来自它独特的训练数据组合:开发者没有只用常见的OSCAR网络语料库,而是融合了百科全书、社交媒体内容、法律文件、医疗文本和小说作品,覆盖了德语使用场景的多样性。
然而,当测试切换到从未见过的域外场景时,排名发生了明显变化。在报纸测试中,Gemma2-2b以MAE(平均绝对误差)0.1852(相当于9.26%的误差)拿下第一,Gemma2-9b以0.1859紧随其后,表现远超域内第一的DeBERTa-large(MAE为0.197)。
Gemma2系列在域外测试中为何表现特别出色?研究团队认为关键在于它的训练方式:Gemma2-2b和Gemma2-9b都采用了"知识蒸馏"技术,也就是让小模型向更大的教师模型学习,从而在相同参数量下获得更强的泛化能力。此外,Gemma模型继承自谷歌Gemini的超大词汇表(256000个词汇条目),这种多语言词汇覆盖能力也有助于它处理各种风格的德语文本。
一个有趣的规律是:模型规模与表现之间的关系远没有人们通常以为的那么直接。把所有模型的参数量和误差率做相关分析,得到的相关系数只有约负0.25,也就是说参数越多、误差越小的趋势只是一个非常微弱的统计倾向,而不是可以依赖的规律。最典型的反例是Llama系列:参数量为3B的大号版本在几乎所有指标上都不如1B的小号版本。这说明,对于德语政治文本理解这个特定任务而言,领域适配性和训练数据的质量与多样性,比单纯堆砌参数量更为重要。
---
六、用33家报纸当"期末考试":误差有多大
报纸测试是整个研究最重要的域外验证环节。研究团队爬取了33家德国报纸的约1000万篇文章,从左翼的《丛林世界》(Jungle World)到右翼的《紧凑》(Compact),涵盖了德国媒体格局的相当宽度。每家报纸的"真实政治倾向"来自德国评媒平台Medienkompass.org,基于1148名参与者对39家媒体的七分制评分(1分为极左,7分为极右)。
为了验证这个评分标准本身是否可靠,研究团队还与另外两个独立来源做了交叉对比:国际媒体偏见检测平台Mediabiasfactcheck.com,以及德国美因茨大学Johann Gutenberg大学新闻学院发布的一份由9名专业评分员完成的学术报告。结果显示,Medienkompass.org的评分与这两个独立来源的相关系数分别达到0.90和0.95,说明这套评分标准具有相当高的可信度。
最终,最优模型(优化后的Gemma2-2b)在33家报纸上的平均绝对误差为0.172,换算成百分比就是在负一到正一这条刻度尺上偏差约8.6%。研究团队将此与人类投票调查的误差水平进行对比,认为AI识别德语新闻政治倾向的精度,已经接近人类民调的可靠程度。
---
七、向量微调:用小小的调整换来更好的结果
在完成初步测试后,研究团队还对六个政党的方向向量做了一轮数值优化。思路是这样的:最初的向量位置是根据Wahl-O-Mat数据手工推算的,虽然有合理依据,但不一定是最优配置。能不能让一个优化算法在允许的范围内微调每个政党的向量位置,以最小化在报纸测试集上的误差?
约束条件是:左翼党和AfD的极端位置不能调整(因为它们代表光谱的两端,一旦移动,整套坐标系就失去了锚点);其余四个政党的向量最多可以在原始位置基础上调整0.25个单位。
优化结果相当有趣:绿党的向量向更偏左的方向移动,而自民党和基民盟则向更偏右的方向移动。这与近年来德国政治格局中绿党偏左化和中间偏右势力右移的实际动态基本吻合。
优化带来的改善幅度在所有13个模型中平均约为0.024个MAE单位,相当于绝对误差降低了约1.2%。其中EuroBERT-610m的改善最大,误差减少了0.304个MAE单位(约5.73%),而EuroBERT-2.1B是唯一一个优化后反而略有变差的模型,退步幅度微乎其微(约0.08%)。
---
八、推文测试:越长越准确
在推文测试中,研究团队考察了三个表现最好的模型(DeBERTa-large、Gemma2-2B和Gemma2-9B)在议员推文上的表现。
一个显著的规律浮现出来:分类准确率与推文字数之间存在极高的正相关,相关系数在0.96到0.97之间。对于那些字数极少的短推文,准确率只有50%到65%,基本上接近随机猜测的水平;但当推文超过50个词时,准确率就会超过80%;当推文超过100个词时,三个模型的准确率都稳定在84%以上,其中DeBERTa-large达到0.864,表现最佳。
这个现象背后有一个直观的道理:短推文往往高度依赖语境。一条只有几个字的推文,可能是在引用别人的话、可能是在反讽、也可能需要了解当时的新闻背景才能理解其政治含义。模型缺少足够的语言信息来做出准确判断,就像侦探只看到了一颗纽扣,没有其他线索,很难锁定嫌疑人。
---
九、这套工具能用来做什么,又有哪些局限
研究团队指出,这套政治倾向检测系统在实际应用中有几个颇具潜力的方向。一是媒体素养工具,例如浏览器插件可以在用户阅读新闻时实时显示该媒体的政治倾向评分,帮助用户意识到自己可能正处于信息茧房之中。二是滚动监测工具,对一段时间内某家媒体或某个话题的政治倾向分数进行追踪,如果某个渠道长期偏向某个极端,触发预警信号。三是社会科学研究工具,帮助研究者分析特定政治事件前后话语场的变化。
不过,研究团队也诚实地罗列了这套系统的局限性。首先是讽刺和引用的问题:当一篇文章在引用某人的话,或者在反讽某种立场时,模型可能会把被引用或被批评的立场误判为文章作者自己的立场。研究团队举了一个例子:某议员的推文写道"那些想要人类社会的人必须克服男性主导的社会——Svenja Schulze(2022年2月17日),这也是SPD党纲中的表述",模型无法判断这位推文作者究竟是在认同还是在质疑这句话,只能根据内容本身将其标记为左倾。
其次是哲学性命题的识别难题。把普鲁东1840年的名言"财产即盗窃"输入Gemma2-9b,结果得分0.78,被归为右翼。尽管普鲁东在历史上通常被视为无政府主义和左翼自由主义的代表人物,但模型因为在训练数据(议院辩论和政党声明)中从未遇到过这类思想史上的命题,只能依据字面意义做出反常判断。
第三是光谱边界的问题。由于训练数据的政治标签都来自这六个主流政党,比左翼党更左或比AfD更右的极端立场,在这套系统里都无法被精确区分,只会被压缩到光谱的两端。
第四是一维映射的固有局限。政治现实是多维度的,而这套系统只输出一个一维的左右分数。研究团队提到了一个有意思的现象:在Bundestag数据中,AfD与绿党(相关系数-0.32)和SPD(-0.34)之间的政治距离,反而比AfD与左翼党之间(-0.18)更大。原因在于,AfD和左翼党在某些议题上(如反对向被侵略国家提供武器)可能出于完全不同的理由得出相同结论——一个从民族主义和贸易利益出发,另一个从和平主义出发。这种"马蹄铁效应"在一维光谱上无法被有效区分。
最后,随着政治格局的演变,任何分类系统都有可能过时。今天看起来属于"略偏左"的主张,十年后可能变成主流共识。研究团队建议定期用更新的数据重新训练模型,以跟上政治话语的时代变化。
---
说到底,这项研究做的事情,是把一件人类凭直觉就能感知的事情——"这篇文章听起来有点右倾"——变成了可以量化、可以比较、可以追踪的数字。这不意味着机器现在就比人更懂政治,而是说,当我们面对数以百万计的文章、推文和新闻时,人类的直觉根本来不及处理,就需要工具来帮忙做第一道筛选。
研究团队坦承,这套系统仍处于早期阶段,不能用来封锁内容,更不应该用来评判个人的政治立场。他们开放了所有训练代码和数据集,也明确表示强烈反对任何基于政治观点的歧视行为,坚定支持言论自由。
至于未来的方向,研究团队希望下一步能开发出"可解释"的版本——不只告诉你一篇文章得了多少分,还能告诉你为什么这么打分,哪几句话触发了哪个方向的识别,这样用户就可以质疑、修正甚至拒绝接受AI的判断。一个会解释自己推理过程的政治倾向检测器,远比一个只会给分的黑箱更值得信赖。有兴趣深入研究这套系统的读者,可以通过arXiv:2605.14352查阅原论文全文。
---
Q&A
Q1:德国政治倾向检测系统是怎么把一段文字转换成左右倾向分数的?
A:系统先判断这段文字是否具有政治性(通过一个专门的过滤分类器),然后用训练好的语言模型评估这段文字与六个德国主要政党(从左翼党到AfD)的认同度,再把这六个认同概率分别乘以各政党在政治光谱上的方向向量,全部加总后计算出一个合成向量,这个向量的角度就对应最终的左右倾向分数,范围在负一(最左)到正一(最右)之间。
Q2:为什么Gemma2-2B这么小的模型在跨域测试中反而打败了更大的模型?
A:Gemma2-2B采用了知识蒸馏训练方式,通过向更大的教师模型学习,获得了超过同等参数量模型的泛化能力。此外,它继承自谷歌Gemini的超大词汇表(256000条目)覆盖了丰富的多语言表达,让它在面对风格各异的报纸文章时更游刃有余。这说明模型的训练方式和数据多样性,在特定任务上比单纯的参数规模更为关键。
Q3:德语政治倾向检测的数据集和模型代码在哪里可以获取?
A:研究团队已将所有训练代码开源在GitHub(仓库名为german_ideology_prediction),Bundestag和Wahl-O-Mat训练数据集发布在HuggingFace,DOI为10.57967/hf/4924,德国媒体数据集也在HuggingFace的SinclairSchneider/german-media系列合集中公开,任何人均可免费下载用于学术研究。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。