当AI“老师“的长篇教案被压缩后，学生成绩会下降吗？

发布时间：2026/6/12 18:16:51

这项由比利时鲁汶大学与Sophont公司联合开展的研究以预印本形式于2026年6月4日发布于arXiv平台论文编号为arXiv:2606.05988。感兴趣的读者可通过该编号检索完整论文。一、从一个烦恼说起AI老师的教案写得太长了每当一位老师给学生布置作业时都希望自己的讲解笔记既清晰又简洁。但如果这位老师特别喜欢写长篇大论——洋洋洒洒写了十页而其中真正关键的知识点其实只需要一页就能讲清楚——那么让学生抄这份超长笔记不仅费时费力而且学生自己以后讲题时也会养成啰嗦的习惯。当前AI世界里恰好存在这样的困境。以DeepSeek-R1、Qwen3这类推理型AI模型为代表的大型语言模型被训练成在回答问题之前先写出一大段思考过程就像在草稿纸上把推导步骤全部写出来一样。这种思考过程在AI领域被称为思维链Chain-of-ThoughtCoT它确实能让AI回答得更准确但代价是这段思考内容有时长得惊人。在AI知识传承体系中存在一种叫做知识蒸馏的方法通俗地说就是让大师级AI教师模型教学生级AI学生模型。教法很简单把大师解题的全部过程记录下来让小模型反复学习模仿。问题在于大师的思考记录动辄上千、甚至上万个字符用这些超长记录来训练小模型不仅训练成本极高而且训练出来的小模型自己回答问题时也会喋喋不休推理费用居高不下。研究团队由此提出了一个听起来很自然的想法在让小模型学习之前先用另一个AI把大师的思考记录压缩浓缩一遍去掉那些反复绕弯、无关紧要的部分只保留逻辑骨架——这个方案被命名为Compress-Distill压缩蒸馏。这个思路就好比把一部三小时的纪录片剪成一部精华版既保留核心内容又大幅缩短时长然后再拿给学生观看。然而这个听起来很美的方案究竟有没有代价学生看精华版之后考试成绩会不会比看完整版低研究团队用一套覆盖面极广的实验给出了清晰而诚实的答案。二、实验的烹饪配方两位大厨、四位学徒、两种压缩师傅为了让结论尽可能可靠研究团队设计了一套三阶段流水线就像一个标准化的烹饪流程每道工序都有明确的输入和输出。第一道工序是大厨出菜也就是让教师模型生成解题记录。团队选取了两位大厨一位是Qwen3.5-397B-A17B一个参数规模极为庞大的混合专家架构模型思考风格详尽冗长另一位是gpt-oss-120B同样是高推理能力模型但天生话少思考记录比前者短约一半。两位大厨分别在涵盖数学、科学、医学、逻辑常识等领域的十多个数据集上出题解答只有答对了的题目才会被保留下来最终各自积累了约28.3万道经过验证的正确解题记录。第二道工序是压缩提炼用专门的压缩模型对这些解题记录进行浓缩。团队选用了两位压缩师傅一位是Llama-3.3-70B-Instruct另一位是Ministral-3-14B-Instruct-2512。给这两位压缩师傅的指令很简单用一个通用提示词要求它们保留推理的关键逻辑步骤和核心见解去掉冗余探索生成更短的版本。压缩时温度参数设为0.3追求稳定可复现的输出。两位压缩师傅独立工作产生两套风格不同的压缩结果。研究团队还特别设计了一个对照实验——截断版本Truncated专门用来检验压缩的价值是否仅仅来自训练数据变少了这一点。具体做法是把原始的完整解题记录直接从末尾截掉一段使其长度恰好等于Ministral压缩版的长度最终答案保持不变。这样就能比较被AI智能精炼过的短文本和被机械截断的短文本到底哪个更好排除了纯粹因为训练数据量减少带来的影响。第三道工序是学徒学习让学生模型分别在原始完整版、两种压缩版、截断版和纯答案版完全去掉思考过程只保留最终答案这五种数据上进行训练。参与学习的学徒共有四位分别是规模为0.8B8亿参数的Qwen3.5-0.8B-Base、规模为8B的Llama-3.1-8B、规模为9B的Qwen3.5-9B-Base以及规模达20B的gpt-oss-20B。每位学徒都分别尝试了两种学习方式一种是LoRA微调相当于只在模型的部分参数上做调整就像给一本书加注释而不重写整本书另一种是全参数微调相当于彻底重新学习从头到尾全部更新。整个实验网格共产生了48个主要训练运行加上7个额外的截断对照实验数据量相当可观。三、压缩究竟压掉了多少在搞清楚学生成绩之前先来看看压缩师傅到底把内容压缩到了什么程度。以Qwen大厨的思考记录为基准两位压缩师傅的表现差异显著。Llama-70B这位压缩师傅较为温和把记录压缩到原来长度的平均14.2%而Ministral-14B则更为激进把记录压缩到原来长度的平均8.6%。换句话说原来100页的内容Llama-70B给你留下约14页Ministral-14B只留8到9页。gpt-oss大厨的情况则不同因为它本身就已经比较简洁原始记录大约只有Qwen记录长度的一半所以压缩空间自然更小——Llama-70B压缩后保留了21%Ministral-14B保留了14.7%。虽然压缩比例看起来比Qwen的情况要高保留比例更大但这仅仅因为起点就已经更短了绝对长度其实更小。更有趣的是压缩效果因题目难度和类型差异极大。最难压缩的是GPQA Diamond这套研究生级别的科学题——Qwen大厨对这类题目的解题思考记录平均长达18734个字符而Ministral压缩后只剩平均1020个字符压缩比约5.4%反观简单的MultiArith算术题Qwen的思考记录本来就只有1750个字符压缩后仍有221个字符压缩比约12.6%。这个规律说明了一个直觉上合理的道理越难的题目大师思考时就越容易产生大量探索性的弯路和反复推敲这些内容可以被大量删除而简单题目本就干净利落可删除的冗余本来就少。从分布图来看压缩效果相当显著。原始Qwen记录的思考长度中位数约为1078个估算token语言模型处理文本的基本单位大致相当于一个词或几个字分布有一条非常长的右尾——有大量极长的记录。经过Llama-70B压缩后中位数降至242个tokenMinistral-14B进一步降至142个token绝大多数记录都集中在500个token以下长尾基本被消除。原始gpt-oss记录的中位数本来就只有423个token压缩后分别降至177和123个token缩短幅度没那么戏剧化但绝对值仍然更小。四、训练速度提升了多少压缩带来的第一个直接好处是训练效率的大幅提升这一点毋庸置疑。以Qwen大厨、0.8B学徒为例原始完整版训练需要约1.1小时训练过程中共需处理约6.35亿个token而用Ministral压缩版训练只需约0.1小时处理约7400万个token速度提升了7.3到7.6倍训练数据量缩减到原来的约12%。8B和9B规模的学徒速度提升幅度约为3.2到4.9倍20B规模的gpt-oss学徒提升约5.1到6.3倍。在gpt-oss大厨的体系下因为原始记录本就较短提升效果相对温和各规模学徒的训练速度提升约2.0到4.1倍训练数据量缩减到原来的22%到30%左右。这个差异揭示了一个重要规律压缩的收益与原始内容的冗余程度成正比。大厨越啰嗦压缩带来的效率红利就越大。五、学生成绩如何核心发现令人清醒训练效率提升了但学生的实际解题能力是否受损这才是整个实验最关键的问题。答案清晰而一致在所有测试过的规模、所有教师、所有训练方式下用原始完整版思考记录训练出来的学生成绩都是最好的没有例外。以Qwen大厨、9B规模学徒为例三种数据源下的全面准确率分别为原始版0.866、Llama-70B压缩版0.834、Ministral-14B压缩版0.817。换算成百分比压缩版学生分别保留了原始版约96.3%和94.3%的成绩。对于20B规模的gpt-oss学徒在gpt-oss大厨体系下原始版0.844、Llama-70B压缩版0.776、Ministral-14B压缩版0.767差距有所拉大。差距的大小与学生规模和训练方式密切相关。在9B这个规模上LoRA和全参数微调的结果都比较接近压缩版学生能保住较高比例的成绩。但在8B的Llama学生上差距就更明显一些原始版全参数微调达到0.715而两个压缩版分别只有0.665和0.652。最小的0.8B学生情况最特殊——各版本之间的差距反而是最小的原始版LoRA微调是0.528两个压缩版是0.506和0.500相差不到3个百分点。研究团队认为这是因为0.8B的小学生本来能力就有限即便提供完整详尽的思考记录它也没有足够的脑容量去充分利用那些额外的推理细节所以原始版相对于压缩版的优势就被抹平了。值得注意的是在数学领域Llama学生使用Qwen大厨的压缩记录训练后成绩反而比原始版更好——全参数微调下压缩版LoRA达到0.581而原始版只有0.458全参数微调下压缩版也是0.702对原始版的0.671。这个反常结果并非压缩质量更好而是一个棘手的工程问题Llama学生在原始记录的情况下有6.1%到15.4%的题目会写到一半就停笔——因为原始记录太长超出了8192个token的最大输出限制导致答案根本没写完就被截断了。压缩版训练出来的学生输出更简洁几乎不会出现这种截断问题因此反而能完整输出答案在这类极长题目上占了便宜。这个现象清楚地告诉我们当学生本身的输出上限成为瓶颈时压缩是有帮助的但一旦摆脱了这个瓶颈如9B和20B规模的学生截断率低很多原始版立即重新夺回优势。六、截断实验揭示的关键真相研究团队设计的截断对照实验专门回答了一个关键问题压缩版学生成绩比原始版低是因为训练数据量少了还是因为压缩本身带来了信息损失实验结果给出了明确答案截断版——也就是机械地把原始记录从末尾切掉、使长度与Ministral压缩版相同的那个版本——通常比压缩版的效果更差尤其是对0.8B学生的LoRA微调和Llama-8B学生的两种微调方式来说截断版都显著弱于压缩版。这说明压缩版并不是仅仅因为训练数据量更少才表现较好而是因为AI压缩师傅对内容做了有意义的筛选和重组保留了对推理最关键的部分这种智能化的精炼本身是有价值的。不过截断实验也揭示了另一面对于9B规模的学生和20B规模的学生截断版与Ministral激进压缩版之间的差距其实不大甚至有时截断版能与之持平。而截断版与Llama温和压缩版相比则通常仍处于劣势。这说明在较大规模的学生上压缩的质量优势随着压缩越来越激进而逐渐减弱——Llama的温和压缩保留了更多有用信息所以优势明显但Ministral的极度激进压缩已经把内容压缩得非常少接近甚至赶不上只是随机截断前缀的效果。还有一个有趣的发现即便截断版与压缩版在准确率上相当截断版的推理输出长度仍然比压缩版长——例如Qwen-9B全参数微调下截断版的中位推理token数是316而Ministral压缩版只有148。这表明学生的输出习惯取决于它所学习的样本结构而非仅仅是样本长度学完被智能压缩过的记录学生自然会讲得更简洁学完被机械截断的记录学生并不会因此学会简洁仍然会写出相对更长的答案。七、纯答案训练的惨败研究团队还测试了一种极端情况完全去掉思考过程只保留最终答案来训练学生。这是所有方案中成本最低的但结果也最惨烈。在LoRA微调下纯答案训练的最佳成绩出现在9B学生上全面准确率为0.781而同样设置下原始版是0.862差了约8个百分点。8B学生的LoRA纯答案版是0.5900.8B学生更是只有0.390。更糟糕的是全参数微调版本9B学生准确率崩到0.550几乎每两道题就有一道答错0.8B学生直接崩溃至0.001可以说完全失去了解题能力Llama-8B的全参数纯答案版也只有0.181。此外这些用纯答案训练的学生在推理时表现出严重的强迫症——9B和0.8B的学生几乎在每道题上都把8192个token的输出上限全部填满却仍然没有给出正确答案表现出完全失控的输出行为。这个发现清楚地说明思考过程对于推理型AI的训练至关重要不能省略。直接喂答案不仅没有教会学生如何思考反而让学生完全丧失了输出的规范性。八、压缩之后学生是否也变得简洁这是一个令研究团队感到欣慰的发现学什么样的教材就会养成什么样的输出习惯。用压缩版记录训练出来的学生推理时确实输出了更短的内容。以Qwen大厨体系为例原始版9B学生的中位推理字符数约为4219个字符而Llama-70B压缩版训练的9B学生推理字符数中位数约为1004个字符Ministral-14B压缩版则约为700个字符。这个简洁风格在四种不同规模的学生身上都稳定出现且基本不受学生规模影响——不论是0.8B还是20B的学生训练数据的简洁程度几乎一对一地传递到了推理输出上。更重要的是这种简洁性是干净的——用压缩版训练的8B和9B学生推理输出超出8192 token上限的比例仅约0%到1%截断几乎消失了相比之下原始版训练的学生在Llama-8B上的截断率高达15.4%。这意味着压缩不仅让学生写得更短还实际上让他们能够写完整每一道题的解答。九、不同领域的差异医学最难压缩研究团队对各领域的详细成绩进行了分析发现了一个很有规律性的现象不同学科领域对压缩的承受能力差异显著。医学领域是所有领域里压缩代价最大的。在Qwen大厨、三个较大规模学生的全参数微调下原始版与压缩版之间的准确率差距达到4.7到8.5个百分点——这是所有领域中最大的差距。原因在于医学题目的思考记录里充满了具体的药品名称、剂量数值、禁忌事项等高度专业化、信息密度极高的内容几乎每一句话都是有用的压缩师傅很难在不损失关键内容的前提下大幅删减。相比之下科学领域的压缩代价最小差距仅约1.4到4个百分点。原因同样符合直觉科学推导过程往往更为结构化和线性探索性的弯路和重复较少压缩师傅保留核心步骤后损失的有效信息相对更少。数学领域由于前文提到的截断问题而成为特例。在Llama-8B学生上压缩版不仅没有损失甚至因为避免了截断问题而超过了原始版但这是特殊情况在不存在截断问题的9B和20B学生上数学领域仍然是原始版略占优势。这对实际应用有明确的指导意义如果某项工作是医学领域的问答应当优先使用完整的原始思考记录来训练学生模型如果纯粹是推理速度和成本更重要、或者面对的是学生本身会产生截断的情况压缩版则是更合适的选择。十、压缩质量验证AI裁判给出了高分研究团队还专门用一个独立的裁判模型gpt-oss-120B对所有压缩后的思考记录进行了信息保真度评分以检验压缩师傅是否在不该删的地方也动了剪刀。评分从忠实度、覆盖度和清晰度三个维度对每一条压缩记录打1到5分并给出完全忠实、部分忠实或不忠实三种裁定以及一个布尔值判断压缩版记录是否仍然支持正确答案。结果相当令人放心。在全部283260条经Qwen大厨生成并经两位压缩师傅处理的记录中Llama-70B压缩版有98.1%被裁定为完全忠实平均忠实度得分4.98分满分5分97.4%的记录仍然支持正确答案Ministral-14B压缩版有98.0%被裁定为完全忠实平均忠实度4.97分97.2%支持正确答案。唯一明显偏低的是GPQA Diamond这套研究生难度题目完全忠实比例约为90%到93%这与其题目难度大、推理复杂有直接关系。剩下约2%的不完全忠实案例主要集中在三类问题上遗漏了关键推理步骤、答案对应关系错误、引入了原文不支持的说法过度压缩、逻辑矛盾和语意不连贯的情况极为罕见。这2%的忠实度问题相对于最终准确率上最多8.5个百分点的差距来说只能解释很小一部分。研究团队因此认为准确率下降的主要原因不是压缩引入了错误信息而是那些被合理删除的、看似冗余的探索性内容实际上对学生的学习是有帮助的——学生在原始记录中看到大师的试错过程本身就是一种有价值的示范。十一、效率与准确率的取舍到底值不值说到底这项研究最终指向了一个关于取舍的根本判断而非一个谁更好的简单结论。原始完整版准确率最高但训练时间最长、推理输出最冗长在较小学生上甚至有截断问题。Llama-70B压缩版准确率约保留96%以9B学生为基准训练速度提升约3到5倍推理输出缩短约4到7倍截断问题几乎消失。Ministral-14B压缩版准确率约保留94%训练速度提升约4到7倍推理输出最短但在gpt-oss-20B学生上有少量输出截断异常。纯答案版训练最快但准确率严重下降全参数微调下极不稳定。用一个具体的数字来感受这个取舍在9B规模的Qwen学生上用Llama-70B压缩版相比原始版准确率差距约3.2个百分点换来的是每1000个推理token的准确率产出效率从0.47提升到3.71即每消耗同样的推理资源能正确回答的问题数量约增加了7.9倍。如果业务场景对绝对准确率没有苛刻要求但对推理成本高度敏感这个交换是完全合算的。研究团队把这种关系清楚地定性为效率与准确率的帕累托前沿而非某种方案全面优于另一种方案原始版在准确率上占有绝对优势压缩版在效率上占有绝对优势两者互不支配选择哪种取决于具体需求。归根结底这项研究最重要的贡献不是证明了压缩比原始更好也不是证明了压缩毫无价值而是精确地量化了这种取舍在不同条件下的代价和收益为工程实践提供了坚实的经验基础。对那些正在考虑如何高效训练小型推理模型的团队来说这项来自比利时鲁汶大学与Sophont公司的研究告诉我们如果你的学生规模够大、医学内容不是主要任务、而且推理成本是首要考量那么花时间让一个AI先把老师的解题过程浓缩一遍是一个有据可查的合理选择但如果你追求的是最高准确率没有任何捷径可以绕过那份完整的原始思考记录。有意深入了解完整实验数据和方法细节的读者可以通过arXiv:2606.05988查阅原文。QAQ1知识蒸馏中的思维链压缩会让学生模型损失多少准确率A根据Compress-Distill的实验结果损失幅度取决于学生模型的规模和压缩激进程度。以9B规模学生为例Llama-70B温和压缩版保留了约96%的原始准确率差距约3个百分点Ministral-14B激进压缩版保留约94%差距约5个百分点。差距在医学领域最大4.7到8.5个百分点在科学领域最小1.4到4个百分点。0.8B这类极小规模学生的差距反而最小不到3个百分点。Q2Compress-Distill实验里的截断对照组说明了什么A截断对照组是把原始完整推理记录直接从末尾机械截掉使长度与Ministral压缩版相同以此区分训练数据量减少和智能压缩本身的效果。结果显示机械截断版通常比AI压缩版效果更差尤其在小模型和Llama-8B上差距显著说明AI压缩师傅对内容做了有意义的筛选而非单纯靠减少数据量获益。不过即便是截断版也比纯答案训练要好得多。Q3推理型AI模型的思维链为什么不能直接去掉以节省训练成本ACompress-Distill的实验明确回答了这个问题。完全去掉思维链只保留最终答案来训练的结果相当糟糕9B学生LoRA微调下准确率从0.862跌至0.781全参数微调则崩溃至0.5500.8B学生全参数微调更是跌至接近0。此外纯答案训练的模型在推理时会失控输出把8192 token的上限全部填满却无法给出正确答案说明思维链对于模型建立正确的思考—输出模式不可或缺。

文章详情

当AI“老师“的长篇教案被压缩后，学生成绩会下降吗？

相关新闻

最新新闻

日新闻

周新闻

月新闻