前段时间简单看了下 ALBERT 的paper(ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS), 简单记录下论文的思想,穿插一点点个人想法。 1 背景 1.1 从BERT以来,NLP的预训练模型变得越来越大,占用的…
一、简介
随着Transfomer结构的普及,一时间大语料、大参数量的预训练模型成为主流。当在实际部署BERT等模型时,往往需要使用蒸馏、压缩或其他优化技术对模型进行处理。
ALBERT模型来自论文 Google 最近公布的论文 《ALBERT: A LITE BERT FOR SELF-SUPE…