카테고리 없음
[DeepSeek] Multi-Head Latent Attention, MLA
DeepSeek-v3가 나오면서 세계가 놀라고 있습니다. 다양한 방법들이 적용된 것으로 보이는데요. 이번에는 딥시크에 적용된 멀티헤드 레이턴트 어텐션이 기존 멀티헤드 어텐션과 어떤 차이가 있는지를 알아보도록 하겠습니다. 기존 MHA(Multi-Head Attention)$$Q = XW_Q \ K = XW_K \ V = XW_V$$기존 멀티헤드 어텐션은 위의 가중치를 통해 어텐션을 계산합니다. 위에서 구한 Q, K, V를 사용하여 아래와 같은 공식을 통해 어텐션을 계산하며, 여러 어텐션 헤드를 연결하여 최종적으로 멀티헤드를 구현하면 저희가 알고 있는 멀티헤드 어텐션이 나오게 됩니다.$$Attention = Softmax({{QK^T}\over{\sqrt{d_k}}})V$$ MLA(Multi-Head Lat..