본문 바로가기
pyhton

단순 선형 회귀

by geewon_v 2023. 11. 13.

 

 

 

 

 

선형 회귀 

테이터가 2차원의 공간에서 표현이 되어 회귀 모델이 단순한 직선 형태가 되면 
단순 선형 회귀(Simple Linear Regression),
그 이상의 공간에서 평면 혹은 초평면의 형태가 된다면 
다중 선형 회귀(Multi Linear Regression)

 

 

 

 

 

 

  • 과학적 추론방식은 크게 두 가지로 분류
    귀납법 : 개별 사례를 수집해서 일반적인 법칙을 생성 
    연역법 : 사실이나 가정에 근거해 논리적 추론에 의해 결론을 도출

 

 

 

 

 

 

 

 

선형회귀분석의 기존 가정 충족 조건


. 선형성 : 독립변수(feature)의 변화에 따라 종속변수도 일정 크기로 변화해야 한다.

 

 

 

. 정규성 : 잔차항(오차항)이 정규분포를 따라야 한다.

  - Q_Q plot을 사용

  - log를 취하는 방법 등을 사용하여 좀 더 데이터 가공이 필요함.

 

 

 

. 독립성 : 독립변수의 값이 서로 관련되지 않아야 한다.

 - 잔차가 자기상관(인접 관측치와 독립이어야 함)이 있는지 확인 필요
 -  자기상관은 Durbin-Watson 지수 d 를 이용하여 검정한다.
 - d 값은 0~4 사이에 나오며 2에 가까울수록 자기상관이 없이 독립이며, 독립인 경우 회귀분석을 사용할 수 있다.
 - DW값이 0 또는 4에 근사하면 잔차들이 자기상관이 있고, 계수(t,  f, r²) 값을 증가시켜 유의하지 않은 결과를 유희한 결과로 왜곡시킬 수 있다.

 

 

 

. 등분산성 : 그룹간의 분산이 유사해야 한다. 독립변수의 모든 값에 대한 오차들의 분산은 일정해야 한다.

  - 분산은 모든 잔차에 대해 동일해야한다. 잔차(y축) 및예상 값(x축)의 산점도를 사용하여 이 가정을 테스트 할 수 있다.
  - 결과 산점도는 플롯에서 임의로 플롯된 점의 수평밴드로 나타나야 한다.

 

 

 

. 다중공선성 : 다중회귀 분석 시 두 개 이상의 독립변수 간에 강한 상관관계가 있어서는 안된다.

  - VIF(Variance Inflation Factor) 분산 팽창 인수 
  - VIF는 예측 변수들이 상관성이 있을 때 추정 회계 계수의 산포 크기를 측정하는 것이며, 산포가 커질수록 회귀 모형은 신회할 수 없게 된다.
  - VIF 값이 1 근방에 있으면 다중공선성이 없어 모형을 신뢰할 수 있으며 만약  VIF 값이 10 이상이 되면 다중공선성이 있다.

 

 

 

 

 

 

 

 lowess=True : 비모수적 최적 모델 추정 (로컬 가중 선형 회귀)