활성화 함수 (Activation Function) 정리

Notice

Recent Posts

Recent Comments

Tags more

Archives

관리 메뉴

akaSonny

Study (Programming)/Python

Jihyeoning 2023. 1. 5. 13:48

딥러닝 모델에서, 노드의 정보들이 이전 레이어에서 다음 레이어로 전달될 때 비선형 함수를 거쳐 전달되는데, 이 때 사용하는 비선형 함수를 활성화 함수라고 한다.
활성화 함수를 통해 다음 레이어에 정보를 얼마만큼 전달해 줄 것인지 결정
선형 함수를 아무리 연결해도 결국 선형함수이기 때문에* 비선형 함수를 사용한다.
* f(x)와 g(x)가 모두 선형함수일 때, f(g(x))는 결국 어떤 또다른 선형함수 h(x)와 같다.

$$S(x) = \frac{1}{1+e^{-x}}$$

그래프에서 보는 것과 같이 0과 1사이의 값을 가지며, 이진 분류(Binary Classification) 문제에서 마지막 출력층의 활성화 함수로 사용된다.
계단 함수와는 다르게, 연속적인 값을 가지므로 모든 곳에서 기울기 계산이 가능하다.
하지만, 그래프에서 양끝으로 갈수록 기울기가 0에 가까워지므로, 이 부분이 곱해지게 된다면 기울기가 잘 전달되지 않는 기울기 소실 (Vanishing Gradient) 문제가 발생할 수 있다.
또한, 학습 속도가 저하된다는 단점이 있다. (sigmoid 값이 항상 양수이기 때문에 미분값의 부호가 모두 같고, 이는 학습을 지그재그 형태로 만드는 원인이 된다고 한다.)
따라서, sigmoid 함수는 학습 중간에 사용하는 것은 지양되고 출력층이나 출력층에 가까운 은닉층에 사용하는 것이 좋다!

$$Tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$$

[python/pandas] DataFrame groupby 이용하기 (0)	2023.06.29
[python/pandas] DataFrame csv 파일 읽기, 인덱스 찾기 (0)	2023.04.25
[파이썬/python] 반복문으로 변수 만들기 (globals) (1)	2023.03.22
파이썬 문자열 포맷팅 python string format 정리 (0)	2022.09.08
파이썬 python datetime 모듈 이용하기 (0)	2021.12.28

'Study (Programming)/Python' Related Articles