本文将重点介绍从头开始构建预训练Transformer模型, 使用Jupyter基于Hugging Face’s模块实现KantaiBERT ,KantaiBERT 首先加载Immanuel Kant数据集,从头开始训练自己的标记器。
KantaiBERT是基于BERT 体系结构(RoBERTa)的预训练模型, RoBERTa改善了预训练过程的机制, 不使用WordPiece标记器, 而使用字节级字节对编码(Byte Pair Encoding,BPE)。
KantaiBERT将被训练成一个6层、12个头和84,095,00