讯飞飞星计划面经 1.padding mask,encoder中对输入序列的长度进行pad 0到max_src_len,在计算自注意力的时候,只对有效序列长度进行attention计算,pad的0需要mask2.sequence mask,decoder中的第一个masked多头自注意力模块输入序列为了不能看到当前token之后的信息,需要对当前token之后的tokens进行mask3.attention mask,decoder中第二个多头交叉注意力模块中query来自decoder的输入的当前token,key-value来自encoder的输出,综合上述两种mask机制,应该对不需要计算注意力的位置进行mask...查看更多
包含1个问题,0个回答
Q:Transformer的mask策略都有哪些?