我为什么想做这个实验 现在很多人提到“数字人”第一反应可能还是虚拟主播、AI 客服、数字员工或者是那种有形象、有声音、会按照固定剧本说话的虚拟角色。但我更关心的问题不是它“长得像不像一个人”而是它能不能像一个具体的人那样说话、思考和回应比如同样一个问题如果由我本人回答我可能会先吐槽两句再开始分析我可能不会直接给标准答案而是会结合自己的经历、情绪和判断习惯去回答。那么这种东西能不能被模型学到聊天记录里到底只包含一个人的“语言风格”还是也隐藏着某种更深层的“行为模式”二、数据从哪里来这次实验的数据来自我自己的微信聊天记录。我使用 weflow 导出了一年内和 7 名高频交流好友之间的聊天内容。由于聊天记录里包含大量隐私信息例如人名、地点、联系方式、具体事件等所以在训练之前我先对数据进行了脱敏处理。最终整理后我得到了大约 2 万条可以用于训练的对话样本。这里要特别说明本项目不会公开原始聊天记录也不会公开完整训练数据。所有展示内容都会经过脱敏、改写或抽象处理。因为这个实验本身就涉及真实社交数据隐私和伦理问题必须放在第一位。三、我用了什么模型这次我选择的基座模型是 Qwen-14B。训练环境是在云端平台上完成的使用 A100 40GB 显卡整个微调过程大约持续了 9 个小时。这次微调的目标并不是让模型获得新的通用知识。它本来就已经具备比较强的语言理解和生成能力。我真正想做的是让模型在已有语言能力的基础上吸收我个人聊天记录中体现出来的表达模式、语气习惯和部分行为倾向。换句话说这更像是一次“个人风格迁移”而不是传统意义上的知识注入。我不是要训练一个更聪明的模型而是想训练一个“更像我的模型”。四、它真的像我吗训练完成后我做了一个初步测试。我让 ChatGPT 随机生成了 100 个问题然后把这些问题输入到微调后的模型中再由我本人判断如果这个问题让我自己回答我是否大概率会给出类似的回复最终的主观评估结果是大约 100 个问题中有 90 个左右被我判断为“比较符合”。当然这个结果不能被理解为严格的科学结论。因为评价者就是我自己判断标准具有主观性100 个问题的覆盖范围也不够全面无法代表现实中的所有交流场景。但从体验上来说这个模型确实让我感受到了一种很微妙的相似性。它不只是会模仿一些口头禅也不只是会学我的句式。有些时候它在面对问题时给出的判断方式、吐槽角度、解释顺序确实会让我觉得这很像我会说出来的话。这也是整个实验里最让我感兴趣的一点。五、聊天记录里可能不只是“说话方式”一开始我以为模型主要学到的是语言表层特征。比如我喜欢怎么开头我习惯用什么语气我会不会吐槽我解释问题时喜欢怎样展开我在熟人面前说话是否更随意。但测试之后我发现它似乎不只是在学“怎么说”还在一定程度上学到了“怎么判断”。人的聊天记录表面上是语言数据但语言背后其实包含大量隐含信息你对不同事情的态度你面对冲突时的处理方式你安慰别人时的习惯你做选择时的偏好你对朋友、陌生人、权威、亲密关系的不同反应你解释一个问题时更重视逻辑、情绪还是经验。这些东西并不是直接写在数据里的但它们会反复出现在长期对话中。如果模型看过足够多类似的场景它就可能学到某种统计意义上的“个体倾向”。这让我意识到聊天记录不是简单的文字集合它可能是一种压缩过的行为轨迹。六、原来的方案为什么不理想在实验早期我曾经设想过另一种数字人架构。我当时的想法是云端大模型负责“怎么想”本地微调模型负责“怎么说”。也就是说我先把自己的人格画像整理成一段提示词让云端大模型根据这个画像进行行为判断然后再把结果交给本地微调模型让它用我的语言风格表达出来。