RWKV
优势
单token推理时间恒定,总推理时间随序列长度线性增加,transformer平方增长
内存占用恒定,不随序列长度增加
推理时间和内存占用随模型尺寸线性增长
劣势
RWKV的线性注意力虽然带来了显著的效率提升,但也可能限制了模型在非常长的上下文中回忆细节的能力。相比标准Transformer的二次注意力所保持的全部信息,RWKV通过单个向量表示在时间步上进行信息传递。相对于传统的自注意力机制,模型的循环架构本身限制了其”回望“之前信息的能力。虽然时间衰减有助于防止信息丢失,但与完全的自注意力机制相比,它在机制上存在一定的限制。
与标准的Transformer模型相比,prompt engineering的重要性增加了。RWKV中的线性注意力机制限制了prompt的信息传递。因此,精心设计prompt可能对模型在任务上的表现更加关键。
RNN
优势
更少的内存
内存和计算要求方面线性增长
劣势
并行化和可扩展性限制,可扩展性弱
训练长序列时容易出现梯度消失问题
Transformer
优势
高度并行化
能够学习局部和长距离依赖关系
劣势
二次复杂度,长序列任务重内存占用高计算成本高(计算和内存密集型)