面试:自然语言处理。面试体验平平,题目难度不大,期待有个好结果。
讯飞飞星计划面经
Q:Transformer的mask策略都有哪些?
1.padding mask,encoder中对输入序列的长度进行pad 0到max_src_len,在计算自注意力的时候,只对有效序列长度进行attention计算,pad的0需要mask
2.sequence mask,decoder中的第一个masked多头自注意力模块输入序列为了不能看到当前token之后的信息,需要对当前token之后的tokens进行mask
3.attention mask,decoder中第二个多头交叉注意力模块中query来自decoder的输入的当前token,key-value来自encoder的输出,综合上述两种mask机制,应该对不需要计算注意力的位置进行mask
体验一般