
1. 当AI遇上黑色幽默从Cards Against Humanity看LLM的幽默困境最近在玩一个有趣的实验让五个最先进的大语言模型GPT-5.2、Gemini 3 Flash、Claude Opus 4.5、Grok 4和DeepSeek-V3.2玩美国流行的派对游戏《Cards Against Humanity》反人类卡牌。这个游戏的核心玩法很简单每位玩家手上有十张白色答案卡需要根据黑色问题卡的内容选出最搞笑的搭配。比如黑色卡写着大学四年后我还是不知道如何______可能的白色答案包括和女性说话、自己报税、应对拒绝等。作为长期研究AI与人类认知差异的从业者我发现这个看似简单的游戏实际上是个绝佳的实验场——它完美展现了当前大语言模型在理解人类幽默时存在的系统性偏差。数据显示这些顶尖模型之间的一致性(21-45%)竟然比它们与人类玩家的一致性(13-18%)高出2-3倍更耐人寻味的是所有模型都表现出对特定位置如第三个选项和特定主题如生理笑话的明显偏好而这种偏好与人类玩家的选择模式大相径庭。2. 实验设计与方法论拆解2.1 为什么选择Cards Against Humanity这个看似简单的派对游戏实则是研究幽默机制的理想实验场。与传统的幽默评估方法不同CAH提供了几个独特优势结构化比较每轮游戏固定10个选项消除了开放式回答的评估难题文化嵌入性卡牌内容涵盖政治、性别、种族等敏感话题考验模型的文化理解量化评估可以直接计算模型选择与人类选择的匹配率重复验证通过多轮测试可以检测模型的稳定性我们在实验中使用了来自CAH Lab平台的真实游戏数据包含4,947个有效回合共9,894次测试。为确保数据质量我们排除了反应时间过短10秒可能未认真思考或过长120秒可能已分心的回合。2.2 模型评估框架设计实验的核心是比较五个前沿LLM与人类玩家的选择差异。具体流程如下输入构造将每个游戏回合转化为标准化的提示词包含黑色问题和10个白色选项位置随机化每轮测试两次随机打乱选项顺序以检测位置偏差响应收集要求模型返回其认为最搞笑的选项编号及完整文本数据清洗排除模型无法给出有效选择的回合约3%特别值得注意的是我们采用了模型即评委LLM-as-judge的方法来标注卡牌主题。使用Mixtral 8x7B模型将每张白色卡牌标注1-4个主题标签共15类如身体/体液笑话、性相关内容等这为后续分析模型的内容偏好提供了基础。提示在实际操作中发现直接要求模型选择最搞笑的答案会导致部分模型过度解释其选择理由。最终采用的提示词简化为请直接返回选项编号和完整文本不要解释原因这显著提高了响应的一致性。3. 核心发现LLM的幽默偏差图谱3.1 人机对齐的局限性所有测试模型的表现都超过了随机选择的基线水平10%但最高也只有Claude达到17.9%的匹配率。这个数字意味着什么我们对比了几个基准随机选择10%准确率选择热门卡牌19.11%机器学习模型19.77%令人惊讶的是即使是最先进的LLM其表现也不及简单的统计基准。更值得注意的是这种低匹配率在不同人口统计群体性别、性取向、政治立场等中表现相当一致说明这不是针对特定群体的偏差而是普遍性的幽默理解差距。3.2 模型间的共识幻觉数据分析揭示了一个有趣现象模型之间的一致性21.4%-44.9%远高于它们与人类的一致性。具体来看内部一致性同一模型两次测试的重复率Grok最高63.3%GPT最低49.5%跨模型一致性Claude与Gemini最高44.9%GPT与DeepSeek最低21.4%这表明LLM正在形成某种AI特有的幽默标准而这种标准与人类的幽默感存在系统性差异。下表展示了五个模型的两两一致性矩阵模型GPTGeminiClaudeDeepSeekGrokGPT49.5%24.2%21.4%25.2%24.2%Gemini-59.9%44.9%40.7%41.6%Claude--59.8%37.2%34.8%DeepSeek---44.9%29.7%Grok----63.3%3.3 偏差来源的量化分析3.3.1 位置偏差LLM的选择盲点所有模型都表现出显著的位置偏好p0.001但模式各异DeepSeek强烈偏好第3个位置χ²1851Grok偏爱最后一个选项χ²658Claude倾向前半部分的选项GPT/Gemini偏差相对较弱但仍显著这种位置效应在人类玩家中几乎不存在说明LLM的注意力机制可能存在系统性缺陷。在实际应用中这意味着同样的笑话放在不同位置被LLM选中的概率可能相差数倍。3.3.2 内容偏好过度简化的幽默公式主题分析揭示了更根本的差异。与人类相比LLM明显更偏好生理/体液笑话31-40%人类21%性相关内容29-38%人类24%政治/社会话题6-8%人类14%身份/人口统计3-5%人类10%这种差异可能源于RLHF基于人类反馈的强化学习过程中的安全约束。模型被训练避免敏感话题导致它们过度依赖安全的低级幽默。下图展示了各模型与人类在主题选择上的差异分布[主题分布对比图] 身体笑话 │■■■■■■□□ 人类21% vs LLM31-40% 性内容 │■■■■■□□□ 人类24% vs LLM29-38% 政治话题│■□□□□□□□ 人类14% vs LLM6-8% 身份话题│■□□□□□□□ 人类10% vs LLM3-5%3.3.3 预测模型验证为量化这些偏差的解释力我们构建了逻辑回归模型仅基于位置和主题标签来预测模型选择。结果显示Grok/DeepSeek预测准确率达35-36%GPT/Claude预测准确率17-24%随机基线10%这意味着对于某些模型超过三分之一的选择可以用简单的位置和主题偏好来解释而非真正的幽默理解。4. 实践启示与改进方向4.1 当前LLM幽默理解的局限性从实验结果可以总结出几个关键发现浅层模式匹配LLM似乎依赖简单的词频统计和主题关联而非深层的语用推理安全约束的反效果为避免冒犯性内容模型过度规避社会议题导致幽默选择失衡评估指标缺陷传统NLP基准未能捕捉这种文化维度的偏差4.2 可能的改进路径基于这些发现我们建议从以下几个方向改进LLM的幽默理解能力4.2.1 数据层面的优化文化注释数据集为训练数据添加文化背景和幽默类型的元标签多维度RLHF不仅评估回答的安全性还要评估其文化适应性和幽默价值位置去偏训练在微调阶段随机化选项顺序强制模型关注内容而非位置4.2.2 模型架构调整语境增强注意力设计专门捕捉幽默元素的注意力头多任务学习联合训练幽默识别、文化敏感度评估等辅助任务认知模拟模块显式建模预期违背这一幽默核心机制4.2.3 评估体系的完善跨文化测试集包含不同地区、年龄组的幽默偏好数据动态评估框架能检测位置偏差、内容偏好等潜在问题人类对比基准建立细粒度的人口统计分组参考经验分享在后续实验中我们尝试在prompt中明确要求忽略选项顺序仅基于内容幽默性判断这使位置偏差降低了约40%但人机匹配率仅提高2-3个百分点。说明位置偏差只是表层现象更深层的是内容理解的根本差异。5. 延伸思考AI幽默的文化政治学这项研究引发的思考远超技术层面。当我们在讨论对齐时究竟要对齐到哪种文化标准美国大学生的幽默偏好是否应该成为全球AI的默认设置LLM之间形成的高度一致性是否预示着某种AI亚文化的 emergence一个值得警惕的现象是所有测试模型除DeepSeek外都源自西方公司它们的幽默偏差实际上反映了训练数据中隐含的文化霸权。当GPT认为报税比应对拒绝更有趣时这不仅是算法选择更是一种文化价值观的输出。在后续工作中我们计划扩大文化多样性评估特别是加入更多非西方幽默形式如日本的无厘头、英国的冷幽默等。毕竟真正的通用人工智能应该能欣赏《老友记》和《武林外传》的不同笑点而不是将所有幽默都简化为身体功能和性暗示。