선형 회귀
테이터가 2차원의 공간에서 표현이 되어 회귀 모델이 단순한 직선 형태가 되면
단순 선형 회귀(Simple Linear Regression),
그 이상의 공간에서 평면 혹은 초평면의 형태가 된다면
다중 선형 회귀(Multi Linear Regression)
- 과학적 추론방식은 크게 두 가지로 분류
귀납법 : 개별 사례를 수집해서 일반적인 법칙을 생성
연역법 : 사실이나 가정에 근거해 논리적 추론에 의해 결론을 도출
선형회귀분석의 기존 가정 충족 조건
. 선형성 : 독립변수(feature)의 변화에 따라 종속변수도 일정 크기로 변화해야 한다.
. 정규성 : 잔차항(오차항)이 정규분포를 따라야 한다.
- Q_Q plot을 사용
- log를 취하는 방법 등을 사용하여 좀 더 데이터 가공이 필요함.
. 독립성 : 독립변수의 값이 서로 관련되지 않아야 한다.
- 잔차가 자기상관(인접 관측치와 독립이어야 함)이 있는지 확인 필요
- 자기상관은 Durbin-Watson 지수 d 를 이용하여 검정한다.
- d 값은 0~4 사이에 나오며 2에 가까울수록 자기상관이 없이 독립이며, 독립인 경우 회귀분석을 사용할 수 있다.
- DW값이 0 또는 4에 근사하면 잔차들이 자기상관이 있고, 계수(t, f, r²) 값을 증가시켜 유의하지 않은 결과를 유희한 결과로 왜곡시킬 수 있다.
. 등분산성 : 그룹간의 분산이 유사해야 한다. 독립변수의 모든 값에 대한 오차들의 분산은 일정해야 한다.
- 분산은 모든 잔차에 대해 동일해야한다. 잔차(y축) 및예상 값(x축)의 산점도를 사용하여 이 가정을 테스트 할 수 있다.
- 결과 산점도는 플롯에서 임의로 플롯된 점의 수평밴드로 나타나야 한다.
. 다중공선성 : 다중회귀 분석 시 두 개 이상의 독립변수 간에 강한 상관관계가 있어서는 안된다.
- VIF(Variance Inflation Factor) 분산 팽창 인수
- VIF는 예측 변수들이 상관성이 있을 때 추정 회계 계수의 산포 크기를 측정하는 것이며, 산포가 커질수록 회귀 모형은 신회할 수 없게 된다.
- VIF 값이 1 근방에 있으면 다중공선성이 없어 모형을 신뢰할 수 있으며 만약 VIF 값이 10 이상이 되면 다중공선성이 있다.
lowess=True : 비모수적 최적 모델 추정 (로컬 가중 선형 회귀)
'pyhton' 카테고리의 다른 글
비선형회귀분석 (0) | 2023.11.14 |
---|---|
선형회귀모델 작성 - 평가지표 : MAE, MSE, RMSE, r2_score (0) | 2023.11.14 |
회귀 분석(Regression Analysis) (0) | 2023.11.10 |
이원 분산 분석 (Two-Way ANOVA) (0) | 2023.11.09 |
카이 제곱 검정(chi square test) (0) | 2023.11.06 |