study

ML — Basic Concepts 4

kmk_sweetlife 2023. 10. 9. 17:50
반응형

Logistic (regression) classification

classification 알고리즘들 중에 정확도가 굉장히 높은 알고리즘

Classification

둘 중 하나, binary한 카테고리 중 하나를 고르는 알고리즘(cf. Regression: 특정 값을 예측하는 것) 예. 페이스북 피드: show or hide
이를 기계적으로 학습하기 위해서는 주로 숫자 0과 1로 인코딩 한다.

linear regression 모델이 가진 한계를 먼저 정리하고 가자면. input에 따라 output이 변화하는 정도가 선형적으로 나타나는 이 모델의 경우 특정 input을 입력하는 시점부터 output이 계속 1로만 출력되는, 즉 특정 input을 입력하기 전까지는 output이 계속 0, 그 이후에는 계속 1인 binary한 classification 에는 적용하기 어렵다.

 

예를 들어, 시험 공부에 투자한 시간에 따른 시험 합격(1) 또는 불합격(0)을 예측한다고 해보자. 이 경우 4시간 정도만 공부해도 충분히 합격(1)할 수 있지만 어떤 학생의 경우 100시간을 공부해서 합격 했다고 한다면 4시간이라는 임계치보다 훨씬 큰 시간이 학습 데이터로 입력되는 것이므로 linear regression 의 기울기 값 W를 찾는 데 오차가 발생할 확률이 훨씬 크다. input(시험 공부에 투자한 시간)이 너무 다양할 경우 합격과 불합격을 가르는 weight 값의 정확도가 낮아질 수 있다는 것을 보여준다.

 

또한 output이 0 또는 1이어야 함에도 불구하고 linear regression model을 따르게 되면 H(x) = Wx + b,

즉 가설이 제공할 값이 0보다 작거나 1보다 훨씬 클 수 있다.

 

0과 1을 나타낼 수 있는 함수, Sigmoid

또는 logistic function이라 한다.

Logistic Classification의 Hypothsis는 아래와 같다.

이 다음으로는 cost를 구하고 cost를 최소화 할 수 있는 알고리즘 정리하는 단계이다.