为什么你的唤醒词模型听不出你的口音?用真人录音补了一课 TTS 训练的短板大多数唤醒词模型的训练数据靠 TTS 生成。找几个发音人设定不同的语速、音调、语气批量合成几百上千条音频再混上噪声和远场模拟训练集就有了。这套流程最简单。但 TTS 只能生成标准发音。标准普通话、标准语速、标准语调。训出来的模型面对标准输入表现很好实验室准确率能到 90% 以上。问题是真实用户不是播音员。有人带口音有人语速忽快忽慢有人咬字习惯和标准差得远。TTS 覆盖不到模型就不认识。这也是为什么很多人说训练时看着好好的一用就拉胯。为什么加几句真人录音就解决了TTS 覆盖了大概 95% 的标准发音剩下那 5% 的真实发音差异模拟不了。但真人可以。让用户录 10 句自己的唤醒词混入 TTS 数据一起训。真人的声学特征把模型的决策边界拓宽了——从只认识标准发音扩展到也认识你的发音。模糊判断少了准确率就上来了。实测数据带口音用户纯 TTS召回率约 50%TTS 10 句真人召回率 90% 以上不是边际改善是质的差距。10 句话的事。训练上两个细节50 倍权重不是增加轮数。只加 epochTTS 数据量太大会把模型注意力拉回标准发音真人效果被稀释。50 倍权重让真人梯度信号更突出。真人不做过度增强。TTS 需要加噪加混响因为那是干净的合成声音。真人录音本身就是真实环境录的底噪和混响都是真的再增强反而失真。只做语速微调和少量加噪就够了。另外真人录音还能降误触发率实测降了约一成。边界清晰了模糊区里的背景噪声不再被误判。怎么用听词的语音增强款¥99做的就是这件事。和基础款纯 TTS¥39的区别就是加入了你自己的 10 句录音。APP 端引导你说 10 次关键词VAD 自动切分上传后大约半小时出模型。同样导出 100KB 左右的 ONNX不限制部署数量接 onnx-wakeword 在 Android、Linux、Web、ESP32 上直接跑。发音比较标准的基础款就够了。带口音的、语速偏快的、怎么调都差点意思的——加 10 句话比调参数管用得多。