본문 바로가기
pyhton

Logistic 회귀 분석

by geewon_v 2023. 11. 15.
Logistic 회귀 분석 

분류이기때문에 정확도로 표현한다.
이항 분류를 기본으로 한다.








 

odds ratio 

오즈(Odds)는 어떤 사건이 일어날 확률(P)을 사건이 일어나지 않을 확률(1-P)로 나눈 값





odds  : 성공확률이 실패확률에 비해 몇 배 더 높은가를 나타낸다.

P(y=1|x)/ 1-P(y=1|x)

 

 

P(A:B)

p(성공 확률 ) / 1-p(실패 확률)

 

 

확률과 odds의 관계

 

p 0% 10% 50% 90%  100%
odds 0 0.11 1 9 무한대

 

 

 

원래비율(p) 0 0.5 1
odds(p/1-p) 0 1
log odds ratio
log(p/(1-p))
- 0

 

 

 

 

 

 

 

 

logit 변환 

 

- logit변환이란 Log + Odds를 뜻하는데 앞서 말한 y가 0 또는 1일 확률 값을 가지고 오즈비로 변환하여 로그를 취해주는 것이다.

 

 - 정규 분포 형태의 값이 도출. 

 

 - 오즈비는 오즈와 정규분포를 연결하는 연결고리가 된다.

 

 

 

 

 

 

 

 

sigmoid 함수 





시그모이드 함수는 S자형 곡선 또는 시그모이드 곡선을 갖는 수학 함수








 

 

 

최대우도법(Maximum Likelihood Estimation)

: 어떤 확률변수에서 표집한 값들을 토대로 그 확률변수의 모수를 구하는 방법

 

 

 

 

 

 

 

일반화 선형모형(Generalized Linear Model)

: 회귀분석이나 분산분석은 종속변수가 정규분포되어 있는 연속형 변수

: 일반화 선형 모형은 종속변수가 정규분포하지 않는 경우를 포함하는 선형모형의 확장이며 glm()함수를 사용

 

 

glm() 함수

 

종속변수의 분포가 정규분포인 경우 gaussian, 이항분포인 경우 binomial, 포아송분포인 경우 poisson, 역정규분포인 경우 inverse.gaussian, 감마분포인 경우 gamma, 그리고 응답분포가 확실하지 않은 때를 위한 유사가능도 모형인 경우 quasi를 사용할 수 있다. glm()함수의 결과를 anova()와 조합하면 분산분석표를 생성할 수 있고 summary()에 넣어서 잔차와 추정값 등을 얻을 수 있다. coef() 함수를 사용하여 모형 인수들의 절편과 기울기 등을 얻을수 있으며 residual()함수는 잔차를 얻을 수 있다. plot()함수를 사용하여 회귀진단 plot을 얻을 수 있고 회귀모형을 사용하여 predict() 함수로 새로운 데이타에 대한 예측치를 추정할 수 있다.

 

 

머신러닝의 포용성(inclusion, tolerance)
 - 생성 모델은 최적화와 일반화를 잘 융합
 - 분류정확도가 100% 인 경우는 과적합(overfitting) 모델이므로 새로운 데이터에 대해 정확한 분류를 할 수 없는 경우가 있다. (꼬리 없는 동물)

 

 

 

 

[출처] https://ko.wikipedia.org/wiki/%EC%8B%9C%EA%B7%B8%EB%AA%A8%EC%9D%B4%EB%93%9C_%ED%95%A8%EC%88%98

https://rstudio-pubs-static.s3.amazonaws.com/41074_62aa52bdc9ff48a2ba3fb0f468e19118.html

'pyhton' 카테고리의 다른 글

Feature Engineering(특성 공학)  (0) 2023.11.20
비선형회귀분석  (0) 2023.11.14
선형회귀모델 작성 - 평가지표 : MAE, MSE, RMSE, r2_score  (0) 2023.11.14
단순 선형 회귀  (0) 2023.11.13
회귀 분석(Regression Analysis)  (0) 2023.11.10