
Feed Forward란?
FC1 - 활성화 함수 - FC2로 이루어진 네트워크로 Multi Head Attention을 통해서 나온 Q, K의 관계에 대해 더 풍부하게 표현하기 위해서이다.

FC1에서 차원을 확장하고, 활성화 함수를 거쳐 비선형성을 부여하고, 다시 차원을 축소시켜 원본 차원으로 돌린다.
풍부한 표현이란?
Multi Head Attention을 통해서 나온 Q, K의 관계라고 하면 "A와 B는 연관이 있다" 정도로 끝난다. 하지만 Feed Forward를 거치면 "A와 B는 주어 - 동사 관계가 있다"와 같이 좀더 깊은 의미를 얻게 된다.
'논문 > Transfomer' 카테고리의 다른 글
| Transfomer - Cross Multi-Head Attention (0) | 2025.02.25 |
|---|---|
| Transfomer - Masked Multi Head Attention (0) | 2025.02.25 |
| Transfomer - Multi Head Attention (0) | 2025.02.25 |
| Transfomer - Input Embedding & Positional Encoding (0) | 2025.02.25 |
| Transfomer의 전체적인 아이디어 해석 (0) | 2025.02.25 |