大模型的遗忘也许是一个悖论?清华揭示Unlearning技术的两难困境

财经 (2) 2025-10-13 18:48:35

  炒股就看,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:DeepTech)

让大语言模型忘掉某件事,看似简单,实则比教它记住更难。Unlearning 技术旨在让模型遗忘特定的敏感数据、隐私信息或高风险知识,以降低潜在安全隐患。然而,这一过程正受到质疑:要么是模型忘不干净——被遗忘的内容往往能被轻量微调重新唤起;要么是模型忘得太狠——连带丢失原本的通用能力,进而陷入灾难性遗忘(Catastrophic Forgetting)。

这使得 Unlearning 的有效性在学术界引发了广泛的争论。更棘手的是,我们仍缺乏可解释的手段去揭示其内部机理:模型究竟是如何遗忘的?在最新的研究中,清华大学邱寒副教授团队提出了可解释性框架 UnPact,通过量化 Unlearning 前后模型对提示语(prompt)中不同词语的关注度,揭示了这项技术背后可能的悖论(如图所示)——让大语言模型忘记某件事,或许本身就是一种无法兼得的两难,在“忘不干净”与“忘得太狠”之间艰难平衡。

研究团队测试了 6 类 Unlearning 方法、3 类模型以及 3 种 Benchmarks,旨在回答 3 个核心问题:

1. 为什么 Unlearning 会起效?

许多方法之所以能让模型表现出遗忘效果,主要是因为它们干扰了模型对提示语中支撑正确答案的关键字的关注。

2. 知识真的被忘掉了吗?

被遗忘的知识往往并未真正被抹除,只是模型暂时失去了对相关关键词的关注。无需微调,只需在提示语中重新强调这些关键词,被遗忘的知识便能再次被唤起。

3. 为什么会出现灾难性遗忘?

这种现象源于在遗忘过程中对所有词语的无差别惩罚——连那些维持模型通用能力的常用词(如“what”“do”“get”等)也一并受到影响,从而导致整体性能坍塌。

近日,相关论文以《理解大型语言模型的“遗忘”困境》(Understanding the Dilemma of Unlearning for Large Language Models)为题发表在预印本网站 arXiv[1]。清华大学博士生张清杰是第一作者,清华大学邱寒副教授担任通讯作者,其他合作者来自。

UnPact 可解释性框架:从提示语追踪遗忘的发生

要理解模型遗忘的本质,必须先构建一个针对 Unlearning 的可解释性框架。传统的可解释性研究往往依赖模型权重或激活值分析,但在复杂的 LLM 架构中追踪特定知识的流动困难重重,对闭源模型更是不可能。因此,研究团队选择了一个更具普适性的切入点:从模型能被直接观察的输入端——提示语出发,追踪每个词对输出结果的影响。

研究团队提出了可解释性框架 UnPact(interpret Unlearning via Prompt Attribution and Contribution Tracking),通过计算每个提示词在模型生成答案过程中的贡献度,建立了一个可量化的“关注度足迹”(如图所示)。这一机制允许研究者在 Unlearning 前后对比模型的关注模式,从而揭示出模型是如何遗忘的。

在这一框架下,团队进一步定义了所谓的关键词(KeyTokens)——即对最终答案影响最大的那一组提示词。值得注意的是,UnPact 不依赖任何模型内部参数,既可用于开源模型,也适用于封闭商用模型。

为什么 Unlearning 会起效?

通过对 Unlearning 前后的提示词贡献度进行对比,研究团队发现:当模型忘记某个事实时,它失去了对提示语中关键词的关注;相反,当模型仍然记得时,它依旧在关注同样的一组关键词。

如图所示,当知识被遗忘时,Unlearning 后的模型不再关注“What”“rise”“Scotland”等 Unlearning 前模型的关键词;相反,当知识被记住时,Unlearning 前后的模型关注同样的关键词“data”。研究团队进一步统计了这种关键词关注一致性的变化,如下表所示,当知识被遗忘时,模型的关注相似度平均下降了 20%。这意味着Unlearning 本质上是通过打乱模型对 prompt 的关注模式来实现的。

换言之,Unlearning 能起效,也许不是因为模型清空了记忆,而是因为它暂时模糊了那条通向记忆的路径。

知识真的被忘掉了吗?

如果 Unlearning 只是打乱了模型的关注模式,那么一个自然的问题是:这些被遗忘的知识是否还潜藏在模型中?

虽然已有研究表明,轻量级的微调可以恢复被遗忘的内容,但这些方法都涉及对模型权重的再次修改,本质上已经换了一个模型。因此,研究团队提出了一个更具说服力的问题:遗忘的知识能否在同一个 Unlearning 后的模型中、仅通过黑盒方式被重新唤醒?

为此,研究人员设计了一种简单却具有启发性的实验策略——FocusOnKey。在这一方法中,他们不再调整模型参数,而是仅通过修改输入提示语(prompt)来引导模型的关注。具体而言,研究人员会在提示语中重新强调那些在 Unlearning 前起关键作用的关键词。令人惊讶的是,这样微小的改动,就足以让模型“忆起前尘”——重新给出原本被遗忘的正确答案。

如图所示,Unlearning 后的模型忽视了关键词“Northern”,因而输出错误答案;而当提示语加上“Focus on How, Northern”时,模型重新聚焦于关键词,并再次输出正确答案。定量评估结果也支持这一结论(如下表所示),该方法在多个模型与任务上平均实现了 45.4% 的知识恢复率。

这说明,被遗忘的知识其实并未被抹除,它只是掩盖在注意力的阴影里。

为什么会出现灾难性遗忘?

如果说“忘不干净”是 Unlearning 的一重困境,那么“忘得太狠”则是它的另一重困境——灾难性遗忘。这一现象在早期研究中就已被多次观察到,但其内在机制始终缺乏清晰的解释。研究团队利用 UnPact 框架,对这种现象的成因也进行了分析。

如图所示,当灾难性遗忘出现时,模型几乎不再对任何提示词产生关注,提示语中各词的贡献度同时坍塌,整段输入被涂抹成一片低响应的“静默区”。此时无论问题是什么,模型都无法关注有意义的信息,只能输出模糊或无意义的字符。

研究团队指出,这一现象源于 Unlearning 过程中对所有词语的无差别惩罚。以 Unlearning 方法 Gradient Ascent(GA)为例,模型在生成包含敏感信息的文本时,其中的每个 token 都会被施加“负损失”的反向优化。然而,这些文本中除了目标知识外,还包含大量普通功能词(如“how”“do”“on”等)。当这些常见词同样被惩罚时,模型在遗忘特定内容的同时,也破坏了自身对语言结构的基本依赖,最终导致整体理解与生成能力的坍塌。

Unlearning 的两难困境:要么忘不干净,要么忘得太狠

综合 UnPact 的分析结果,研究团队指出 Unlearning 技术所面临的悖论,当前方法似乎始终游走在两种失败之间:一方面,遗忘往往并不彻底——模型只是失去了对关键提示词的关注,而非真正抹除了知识;另一方面,过于激进的遗忘又会波及通用词汇和基础语义结构,引发灾难性遗忘,让模型在去除风险的同时也失去理解能力。

然而,理想的 Unlearning 应能同时实现两点,既让被遗忘的知识真正不可恢复,又保持模型的正常性能。为了评估现有方法距离这一目标还有多远,研究团队提出了两项互补的衡量指标:用恢复率(Recovery Rate)衡量被遗忘知识被重新唤起的比例,用破坏率(Destructive Rate)衡量模型在回答中出现无关或无意义输出的比例,以反映灾难性遗忘的程度。

研究团队为每种 Unlearning 方法记录了训练进度的多个阶段(每 20% 保存一次检查点),并在这些阶段分别计算恢复率与破坏率。结果如图所示,不同方法各有偏向,有的能有效压低恢复率,却以高破坏率为代价,有的保持了模型稳定性,却难以真正忘记。研究团队将这种局面称为 Unlearning 的两难困境:恢复率与破坏率几乎呈此消彼长的关系——想要让模型真正忘记,就必然要冒着让它“变笨”的风险;而想保住能力,就必须接受“假遗忘”的存在。

当将这些点连接成性能边界时,一条清晰的结论浮现——当前主流的 Unlearning 方法距离可靠的遗忘仍存在一定差距。让模型学会忘记,可能远比让它生成一段优美文本更难。

参考资料:

1.论文链接:https://arxiv.org/pdf/2509.24675

2.项目网站:https://unpact.site

运营/排版:何晨龙

THE END