RWKV

优势

  • 单token推理时间恒定,总推理时间随序列长度线性增加,transformer平方增长

  • 内存占用恒定,不随序列长度增加

  • 推理时间和内存占用随模型尺寸线性增长

    劣势

  • RWKV的线性注意力虽然带来了显著的效率提升,但也可能限制了模型在非常长的上下文中回忆细节的能力。相比标准Transformer的二次注意力所保持的全部信息,RWKV通过单个向量表示在时间步上进行信息传递。相对于传统的自注意力机制,模型的循环架构本身限制了其”回望“之前信息的能力。虽然时间衰减有助于防止信息丢失,但与完全的自注意力机制相比,它在机制上存在一定的限制。

  • 与标准的Transformer模型相比,prompt engineering的重要性增加了。RWKV中的线性注意力机制限制了prompt的信息传递。因此,精心设计prompt可能对模型在任务上的表现更加关键。

    RNN

    优势

  • 更少的内存

  • 内存和计算要求方面线性增长

    劣势

  • 并行化和可扩展性限制,可扩展性弱

  • 训练长序列时容易出现梯度消失问题

    Transformer

    优势

  • 高度并行化

  • 能够学习局部和长距离依赖关系

    劣势
  • 二次复杂度,长序列任务重内存占用高计算成本高(计算和内存密集型)