关于Transformer中的位置编码-ALiBi

如题所述

2023年3月12日更新:在大模型训练的背景下,关于处理长序列的策略,如旋转位置编码(ROPE)与ALiBi,最近研究有所进展。BAIChuan2在13B模型上选择ALiBi,尽管两者效果差异不大,但ROPE对旋转操作的支持更便利。其中,ALiBi通过在自注意力计算中添加静态不学习的bias,减少了对位置编码的依赖,简化了推理过程。

ALiBi论文提出了一种新的位置编码方法,它摒弃了传统的正弦位置编码,而是采用一个简单的偏置策略。原始Transformer论文中,作者倾向于使用正弦编码,因为它易于计算且可以线性扩展到任意长度,即使超过训练长度。然而,BERT的绝对位置编码在处理长序列时存在局限,且需要额外的embedding学习。

旋转位置编码(如RoFormer)通过在query和key上应用sinusoidal乘法,实现了对长序列的处理,但需额外计算,可能影响速度。T5则通过学习性bias替代position embedding,虽减小了参数,但训练速度和模型复杂度有所增加。

ALiBi的核心在于引入静态、不学习的bias,以距离为基础调整attention-score,这简化了代码,减少了参数,尤其在处理长文本生成任务如MosaicLM时,表现出稳定且高效的性能。总结来说,ALiBi的优点包括:减小模型复杂性,提高训练效率,以及在长序列推理中的稳健性。
温馨提示:答案为网友推荐,仅供参考
相似回答
大家正在搜