본문 바로가기
논문/Transfomer

Transfomer - Feed Forward

by cvlab_김준수 2025. 2. 25.

 

Feed Forward란? 

FC1 - 활성화 함수 - FC2로 이루어진 네트워크로 Multi Head Attention을 통해서 나온  Q, K의 관계에 대해 더 풍부하게 표현하기 위해서이다. 

 

FC1에서 차원을 확장하고, 활성화 함수를 거쳐 비선형성을 부여하고, 다시 차원을 축소시켜 원본 차원으로 돌린다.

 

 

풍부한 표현이란?

Multi Head Attention을 통해서 나온  Q, K의 관계라고 하면 "A와 B는 연관이 있다"  정도로 끝난다. 하지만 Feed Forward를 거치면 "A와 B는 주어 - 동사 관계가 있다"와 같이 좀더 깊은 의미를 얻게 된다.