ERNIE3.0Titan的在线蒸馏框架 原图定位 modeling loss)。其中,前者主要区分模型生成内容与事实,这实际上是一个二进制的分类问题,最终通过交叉熵损失函数(cross-entro py loss)训练模型参数;后者是在 ERNIE 3.0 可控数据集 Dc={x1, x2, . . . , x|Dc|}上使负对数似然损失最小。