multivariate linear regression: 변수가 여러 개(x1 ~ xq)일 때 변수 간의 linear combination을 통해 확률 p를 계산
이 때 p는 linear function으로, 1차함수 형태로 나와 결과값이 unbound되어있기 때문에,
0~1 사이의 값을 가지도록 오른쪽 처럼 변형해줄 수 있다.(logistic function)
odds: success와 nonsuccess 간의 비중. logistic function을 odds에 대한 식으로 표현할 수 있다.
(실패 대비 성공확률) --> 1보다 크고 작음에 따라 성공인지 실패인지 결정됨. 여기에 로그를 취하면 0이 성공과 실패의 기준이 된다.
exponential term을 없애기 위해 odds에 로그를 취하고, 이 log odds를 logit이라고 한다.
]
logit and logistic function: 서로 inverse function 관계에 있다
- logit: probability p를 real line으로 맵핑. x = log(p/(1−p)).
- logistic function: real number를 0~1의 확률값 p로 맵핑. p = 1/(1+exp(-x))
inverse logit function(logistic function)을 이용하면, predicted value x를 p로 변환해 true class에 속할 확률을 구할 수 있다.
따라서 logistic function은 두 개의 클래스를 가진 binary classification 문제에 가장 적합하다.
이를 통해 regression하는 것이 logistic regression이다.