회귀분석

2020. 8. 17. 14:15

* 회귀분석

데이터가 정수: 이산형, 실수형: 연속형

지도학습: y=f(x)에 대해 입력볍수 x와 출력변수 y에 대한 함수를 모델링하는것

회귀분석이란 입력변수 x에 대해 연속형을 가지는 출력변수에 대한 함수를 모델링하는 것을 의미한다.

종류: x와 y간의 관계에 따라 나뉨 -> 선형회귀, 비선형회귀

- 단순선형회귀 : 입력변수가 1개일때, 해당 모델링 직선으로 계산되는 추정값과 실제 데이터의 차이(=잔차, residual)가 평균적으로 가장 작아지는 직선이 좋은 모델이다.

회귀계수(β)의 추정

- 잔차의 제곱합(SSE, Error Sum of Squares)을 가장 최소화 시키는 계수를 추정한다.

- 즉 SSE가 최소화(0)이 되는 지점을 구한다.

- SSE의 β0과β1으로 편미분하여 연랍방정식을 푸는 방법으로 계수를 구한다.

RSE와 MSE는 SSE를 표준화한 개념이다.

SST(y의 변동성/분산, Total sum of squares)=SSE(x를 통해 y를 설명하지 못하는 변동성/분산, Error sum of squares)+SSR(독립변수 x들로 y를 설명할 수 있는 변동성/분산, Regression sum of squares)

선형회귀의 정확도 평가

- R^2는 입력변수 x로 설명할 수 있는 y의 변동을 의미한다.

- R^2는 RSE의 단점을 보완한 평가지표로 0~1의 범위값을 가짐

- R^2의 값이 1에 가까울수록 선형회귀 모형의 설명력이 높다(즉 보다 정확하다)

- R^2=1-SSE/SST=SSR/SST

- 즉 회귀분석은 y의 변동성을 독립변수인 x가 얼마나 잘 설명하는가를 분석하는 것이다.

- 변수가 여러개일때 각각의 독립변수 x가 y를 설명하는 변동성이 크면 좋은 변수이며, 낮은 p-value 값을 가진다.

회귀계수에 대한 검정

- β1의 표준오차, 표본분포를 사용하여 검정을 진행한다

- 종류: 귀무가설(β1=0, 회귀계수는 0이다, 즉 변수의 설명력이 없다), 대립가설(β1=/=0, 회귀계수는 0이 아니다, 즉 변수의 설명력이 있다)

- 위의 가설을 검증하고자 β1과 β0에 대한 신뢰구간을 구해 검증을 진행한다.

-> 위의 설명은 단순선형회귀분석에 대한 설명이다.

- 단순선형회귀분석 : 변수가 1개인 경우, y=β0 + β1*x

- 다중선형회귀분석 : 변수가 여러개인 경우, y=β0 +β1*x1 + β2*x2

: 다중선형회귀계수 추정의 경우에도, SSE를 최소화하는 방향으로 추정을 진행한다.(각 변수에 대해 편미분 진행)

Lagifun's 정보 기록소