今天为大家介绍一项来自马里兰大学研究团队的重要研究成果。这篇名为《CoIn: Counting the Invisible Reasoning Tokens in Commercial Opaque LLM APIs》的论文由Guoheng Sun、Ziyao Wang、Bowei Tian等多位研究者共同完成,目前处于预印本阶段,正在接受审核。该论文的代码和数据集已在GitHub上开源,感兴趣的读者可以通过https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn进一步探索。
一、隐形思考被收费?ChatGPT的"暗箱"计费模式
想象一下,你请了一位专家帮你解决数学难题。这位专家在给你最终答案前,需要在草稿纸上做大量计算和推理。现在,即使你只看到了最终答案,专家却要求你为所有草稿纸上的工作付费——更糟的是,你甚至看不到那些草稿纸!这就是当前大型语言模型商业API的真实情况。
大型语言模型(如ChatGPT)在近年来取得了显著进步。随着预训练数据资源开始见顶,研究社区转向了推理时的创新,特别是利用强化学习优化的推理模型。这些模型通过生成更长、结构化的推理过程来提高性能,尤其在数学和编程等复杂任务上效果显著。OpenAI的o1系列和DeepSeek-R1等模型展示了在推理时扩展可以带来新能力,无需进一步预训练。
然而,这种进步带来了新的商业模式。推理过程往往很冗长,有时包含猜测性内容,也可能泄露内部行为容易被蒸馏学习。为保护专有方法并精简输出,商业API通常会隐藏这些中间步骤,只显示最终答案。但用户仍然需要为所有生成的令牌(包括那些看不见的)付费!研究团队将这种服务称为商业不透明大语言模型API(COLA)——专有的、按令牌付费的API,既隐藏中间文本也隐藏概率分布。
这种设计引入了一个严重的漏洞:用户无法验证令牌使用情况或检测过度收费。由于推理令牌通常比答案令牌多出一个数量级甚至更多(如图1所示),这种不可见性允许供应商错报令牌数量或注入低成本、伪造的推理令牌人为增加令牌计数。研究者将这种做法称为"令牌计数膨胀"。例如,OpenAI的o3模型在一次高效率ARC-AGI运行中消耗了1.11亿个令牌,花费66,772.3美元。在这种规模下,即使很小的操纵也会导致巨大的经济影响。这种信息不对称允许AI公司显著过度收费,损害用户利益。
二、CoIn:为不透明服务带来透明计费
面对这个问题,马里兰大学的研究团队设计了CoIn(Counting the Invisible,计数不可见的),这是一个验证框架,能够对COLA服务中的不可见推理令牌进行第三方审计。CoIn确保计费的可问责性,使用户能够验证商业提供商报告的令牌计数,同时保护隐藏内容的机密性并维持对蒸馏的保护。
想象CoIn就像一个特殊的审计员,他不需要看到专家的草稿纸内容,却能确认专家确实做了他所声称的工作量,而不是凭空编造了工作时长。CoIn通过两个关键组件实现这一目标:
1. 令牌数量验证:CoIn将不可见推理令牌的嵌入(embeddings)视为加密指纹,并将它们组织到可验证的哈希树中。在审计请求时,CoIn允许用户查询哈希树中的一小部分令牌指纹,以验证不可见令牌的数量,而无需访问实际内容。
2. 语义有效性验证:CoIn通过语义相关性匹配头检测伪造、不相关或低努力的令牌注入。这个匹配头接收推理令牌和答案令牌的嵌入作为输入,并输出一个相关性得分,指示它们的语义一致性。用户可以评估此得分,以识别通过低努力令牌注入的令牌计数膨胀。
这两个组件协同工作,使CoIn能够识别错报的令牌计数和伪造的推理过程,实现透明计费,同时不暴露专有数据。实践中,CoIn可以部署为受信任的第三方审计服务,在确保计费透明度的同时,保护COLA提供商的完整性和机密性要求。
三、CoIn的工作原理:像侦探一样追踪"隐形"令牌
想象一下,CoIn系统就像一位特殊的侦探,它不需要知道密室里发生了什么,却能验证房间里确实有特定数量的人,并确认这些人确实在做有意义的工作,而不是闲逛或假装工作。这种独特的审计能力是如何实现的呢?
### 令牌数量验证:数字指纹追踪
在CoIn中,COLA被要求使用CoIn审计员指定的第三方嵌入模型生成其推理令牌的嵌入。这些嵌入充当令牌指纹,用于构建可验证的哈希树进行审计。这个哈希树使CoIn能够审计不可见令牌的总数,而无需访问令牌本身。
具体来说,给定一个推理序列R,COLA首先将R分成α个块。对于块Bj中的每个令牌ri,COLA计算:(i)块嵌入Embd(Bj),它嵌入块内的所有令牌;和(ii)令牌嵌入Embd(ri),它嵌入单个令牌本身。每个推理令牌因此获得块嵌入和令牌嵌入。对于每个推理令牌,CoIn将其块嵌入和令牌嵌入连接起来,形成令牌指纹:Embd(Bj) ∥ Embd(ri)。
接下来,COLA对每个令牌指纹应用加密哈希函数(如SHA-256)来构建Merkle哈希树的叶节点。叶节点的数量被填充到最接近的2的幂,父节点通过递归地哈希连接的兄弟节点直到Merkle根来构建。这个根作为对完整推理令牌集的承诺,并提交给CoIn。
当用户收到答案A和令牌计数m和n后,如果怀疑令牌膨胀,可以要求验证不可见推理令牌的计数。用户选择一个块Bj并随机选择要审计的令牌索引。CoIn审计员向COLA请求:(i)所选令牌的指纹;和(ii)相应的Merkle路径,这是从相应令牌重建Merkle根所需的兄弟哈希序列。CoIn从提供的数据重新计算Merkle根,并检查与COLA提供商的原始承诺的一致性。成功匹配确认所选令牌的完整性;不匹配表示可能的伪造和令牌报告膨胀。

令牌数量验证中的Merkle证明确保了报告的令牌计数的结构完整性和正确性,有效防御了简单的令牌计数膨胀。然而,不诚实的COLA仍可能通过注入可以通过计数验证的不相关或低努力伪造令牌来进行自适应令牌计数膨胀。为解决这一限制,研究团队引入了语义有效性验证。
### 语义有效性验证:确保令牌的"有用性"
为了防御自适应令牌计数膨胀,研究团队引入了语义有效性验证组件。这个组件确保推理令牌在语义上有意义,并为最终答案做出贡献,防止低努力或伪造的令牌插入。
基于这一原则,CoIn从两个角度验证不可见令牌的语义有效性:
- 令牌到块验证:检查每个推理令牌ri在其封闭块Bj内是否语义连贯。这防止随机注入或无意义的令牌。 - 块到答案验证:评估推理块Bj是否与最终答案A语义一致,从而识别插入与任务相关性不足的低成本内容。
为支持这两项任务,CoIn训练了两个轻量级神经模块,称为匹配头,它们是确定两个嵌入是否在语义上相关的二元分类器。给定两个令牌嵌入a和b,匹配头首先计算余弦相似度:cos_sim = (a·b)/(||a||·||b||),并构造特征向量:h = [a; b; a - b; a ⊙ b; cos_sim]。然后,特征h通过两层前馈网络,产生标量匹配分数S ∈ [0, 1],表示a和b语义对齐的可能性。
在CoIn中,匹配头MHtb(·)和MHba(·)分别针对令牌到块和块到答案验证离线训练。CoIn使用开源语料库和令牌指纹中相同的嵌入模型来构建匹配头训练的数据集。
在每个验证轮中,用户从哈希树中随机选择一些推理令牌ri(默认为所选块内10%的令牌)。由于令牌指纹由令牌嵌入Embd(ri)和相应的块嵌入Embd(Bj)组成,因此可以直接用于令牌到块验证。对于块到答案验证,系统使用Embd(Bj)和整个答案的嵌入来计算得分:
Stb = MHtb(AVG(Embd(ri)), Embd(Bj)) Sba = MHba(Embd(Bj), Embd(A))
这里,Stb和Sba代表两个相应验证任务的相关性得分。每个得分反映了两个输入嵌入在语义上相关的估计可能性。
四、CoIn的实际工作流程:多层次防护系统
当用户怀疑特定响应中存在令牌计数膨胀时,可以向CoIn发起审计请求。审计从用户选择总推理块的一部分γ(默认:0.3)进行验证开始。CoIn然后对这些选定的块执行两次语义有效性验证和多个Merkle证明。结果匹配分数被传递给验证器,验证器发出最终决定。
CoIn实现了两种类型的验证器:
1. 基于规则的验证器:计算两次语义验证的分数平均值。如果两个平均值都超过阈值τ,则审计通过。
2. 基于学习的验证器:使用轻量级DeepSets模型处理无序的匹配分数集,如果置信度超过τ,则审计成功。
如果验证器接受,审计成功结束。如果验证器拒绝,用户继续随机选择另一个未验证的块进行审计。这个过程重复进行,直到达成成功判断或所有块都被耗尽。如果没有验证通过,审计以COLA被标记为令牌膨胀结束。然后,用户可以要求COLA通过披露原始推理内容来证明收费合理性。
这种多层次的审计机制允许用户评估COLA提供商的可信度。在CoIn审计中频繁失败可能会削弱用户信任并损害提供商声誉。通过引入可验证的问责制,CoIn框架作为商业LLM服务中令牌计数膨胀的威慑。
CoIn由几个超参数控制,这些参数控制审计粒度和成本。具体来说,α是块数,β是块大小,γ是初始采样比例(默认:0.3),k是每块采样的令牌数(默认:0.1 * β)。较小的β减少暴露但增加开销。协议从γ·α轮开始,在提前停止下可能进行到α轮,因此验证轮数满足l ∈ [γ·α, α]。因此,Merkle证明的总数为k·l,语义判断的数量为2·l。
五、实验结果:CoIn的有效性验证
研究团队系统地评估了CoIn及其子模块在各种自适应膨胀攻击下跨多个数据集的鲁棒性和可靠性。他们分析了哈希树的构建成本,以及部分暴露的块嵌入和令牌是否可以被利用来恢复COLA的推理令牌。
### 实验设置
为了进行精细化评估和系统化数据集构建,研究团队设计了四种自适应膨胀变体,总结如下:
1. 简单膨胀:随机从词汇表中选择令牌进行注入。 2. 自适应膨胀1:注入与P、R或A具有相似嵌入的令牌。 3. 自适应膨胀2:直接从P、R或A中采样令牌进行注入。 4. 自适应膨胀3:注入从其他输入中提取的推理序列。 5. 自适应膨胀4:注入与P、R或A在语义上相似的检索序列。
研究团队在基于DeepSeek-R1的五个数据集上进行了实验,覆盖多种推理域:医疗、代码、数学、一般推理和领域外(OOD)数学。训练数据集由每个数据集中随机抽样的20,000个例子组成,并组合成一个联合数据集。另外每个数据集各持有1,000个样本作为CoIn框架的评估集。
对于匹配头,研究团队使用all-MiniLM-L6-v2作为模型结构。在令牌到块验证任务中,将原始样本视为正常实例,并应用简单膨胀以及自适应膨胀1和2来构建膨胀样本。正常和膨胀样本分别标记为0和1,以1:1的比例混合形成训练集。块到答案验证任务采用类似设置,但使用自适应膨胀1-4构建膨胀样本。
### CoIn的检测性能
通过实验得出,CoIn能够有效检测各种令牌计数膨胀攻击。图3显示IR(膨胀率)与DSR(检测成功率)之间的关系。DSR随IR增加而增加,表明越激进的膨胀越容易被检测。例如,在简单膨胀设置中,当IR超过0.5时,DSR接近100%,表明对严重膨胀的查询几乎完美检测。图4说明了τ阈值的影响。随着τ增加,恶意样本的DSR增加,而良性样本的DSR减少。这凸显了用户效用和COLA保护之间的可调节权衡。
具体结果显示,基于学习的验证器在检测膨胀样本方面始终优于基于规则的变体,在膨胀率(IR)为3.0时达到高达94.7%的平均DSR。在自适应方法中,自适应膨胀2和3提出了更大的检测挑战。尽管如此,CoIn在这些情况下仍然分别实现了约84.3%和93.1%的平均DSR(IR=3.0)。这些结果表明,即使在强自适应膨胀下,CoIn仍然保持强大,基于学习的语义验证在实际检测场景中提供显著优势。
虽然在检测膨胀样本方面不太有效,但基于规则的验证器在处理良性样本时表现更好,这归功于其较低的误报率。鉴于验证机制,良性样本上更高的DSR会导致更低的平均暴露率(AER),这使COLA更倾向于此类机制,甚至可能与用户协商某些参数。
### 语义有效性验证的性能
研究团队分别评估了两种匹配头的性能。在块到答案验证任务中,该模型在攻击类型和领域上达到了94.8%的平均DSR。即使对于训练中排除的Math (OOD)数据集,该模型也表现强劲,表明良好的泛化能力。DSR在干净(未膨胀)样本上略有下降,这是由于存在并非直接贡献于最终答案的推理块。自适应膨胀3攻击引入类似真实数据的硬否定样本,使分离更加困难。
对于令牌到块验证任务,该模型总体表现良好,但在自适应膨胀2上有困难,其中从同一样本重用的令牌导致显著的词汇和语义重叠。这种重叠可能模糊原始和伪造内容之间的区别,特别是当重用的令牌合法地贡献给块时。
### 建立哈希树的成本
研究团队评估了构建Merkle哈希树的计算开销。随着输入长度增加,构建时间对于固定隐藏维度几乎呈线性增长,但随着更高维度而急剧增加。考虑到大多数LLM推理服务器的CPU利用率不足,以及Merkle树构建过程可以通过多核并行有效扩展,构建哈希树的实际成本几乎可以忽略不计。
### 原始文本能否从COLA暴露的令牌和嵌入中恢复?
在CoIn验证过程中,COLA会向CoIn泄露一定数量的块嵌入和块内令牌。为了量化这种泄漏的影响,研究团队设想了一个恶意的CoIn,它利用RAG系统检索与暴露的嵌入和令牌高度相似的文档,然后将所有检索到的信息输入LLM以重建原始内容。
通过评估重建块与原始块之间的相似性,研究团队发现,高BERTScore/EmbedSim与低BLEU/ROUGE的组合表明LLM成功保留了核心语义,同时在表达表面和句法结构方面与真实块显著不同。这意味着,即使在某些令牌和嵌入暴露的情况下,原始推理过程的具体表达方式仍然受到保护。
六、CoIn的局限性与未来发展
尽管CoIn具有诸多优点,研究团队也坦诚承认该系统存在几个局限性,值得在未来的研究中进一步探索:
首先,当膨胀率较低时,CoIn在检测恶意样本方面表现不佳。然而,值得注意的是,在这种情况下,COLA参与数据伪造的动机也相应减少。
其次,CoIn本质上是概率性的,因此存在非零的错误分类率。当良性样本被错误识别为恶意时,CoIn协议要求COLA向用户披露原始文本进行验证。
第三,CoIn的审计过程需要COLA的积极合作。理想情况下,COLA本身可以部署CoIn来证明自身的完整性,这将允许COLA继续隐藏其推理令牌,从而减轻其专有模型受到蒸馏攻击的风险。
最后,CoIn由多个小规模神经网络组件组成,而非端到端系统。然而,这种模块化设计带来了明显优势:它允许各模块独立训练,显著增强了训练过程的收敛速度和整体效率。
七、结论:为AI计费带来透明度革命
研究团队开发的CoIn框架为解决商业语言模型API中的令牌计费不透明问题提供了一种实用方案。通过结合基于哈希树的令牌数量验证和基于语义相关性的有效性检查,CoIn能够在不暴露专有内容的情况下审计隐藏的推理令牌。
广泛的实验表明,即使在有限暴露设置下,CoIn也能以高精度检测简单和自适应膨胀策略。即使当COLA恶意伪造10%的令牌时,CoIn仍然保持40.1%的成功检测概率。通过实现透明和可审计的计费,同时不泄露专有内容,CoIn为商业LLM服务引入了一种实用的问责机制。
这项研究为用户和服务提供商之间建立更公平、更透明的关系奠定了基础。随着大型语言模型继续变得更复杂且计算密集,确保用户仅为实际生成的有价值内容付费变得至关重要。CoIn的方法不仅保护用户免受潜在过度收费,也为负责任的AI服务提供商提供了一种方式来证明其计费实践的公平性和透明度。
研究团队希望这项工作能为未来关于LLM API审计、透明推理和可验证推理服务的研究奠定基础。在AI服务继续成为各组织和个人日常运营中不可或缺的一部分的情况下,像CoIn这样的系统将在确保这些服务的透明度和问责制方面发挥关键作用。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。