You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
个人理解可能有2方面原因,不知道说得对不对:
1、成本节省方面,k的rope编码是多头共享的,这个时候输出维度只有per head dim,这种情况下即使用了kv的中间低秩结果节省量也不大。作为对比 query的rope输出不共享,要输出total head dim 节省很大
2、语义/效果方面,q的中间低秩结果仅为q自己服务;k的低秩结果是kv共享的,它俩反向传播都会影响中间低秩结果的更新,所以把仅和k相关的rope也耦合在上面可能会制约效果或训练稳定性(而kv在查询中同时发力,所以它俩中间结果耦合在一起语义上也说的通)
1、为什么Query在升维后 分出需要rope位置编码部分和不需要rope编码部分,而Key是在降维后得到rope这部分?
2、为什么Value向量是kv升维后分出来的,Key和Value为什么不是独立的?
The text was updated successfully, but these errors were encountered: