회귀분석
* 회귀분석
데이터가 정수: 이산형, 실수형: 연속형
지도학습: y=f(x)에 대해 입력볍수 x와 출력변수 y에 대한 함수를 모델링하는것
회귀분석이란 입력변수 x에 대해 연속형을 가지는 출력변수에 대한 함수를 모델링하는 것을 의미한다.
종류: x와 y간의 관계에 따라 나뉨 -> 선형회귀, 비선형회귀
- 단순선형회귀 : 입력변수가 1개일때, 해당 모델링 직선으로 계산되는 추정값과 실제 데이터의 차이(=잔차, residual)가 평균적으로 가장 작아지는 직선이 좋은 모델이다.
회귀계수(β)의 추정
- 잔차의 제곱합(SSE, Error Sum of Squares)을 가장 최소화 시키는 계수를 추정한다.
- 즉 SSE가 최소화(0)이 되는 지점을 구한다.
- SSE의 β0과β1으로 편미분하여 연랍방정식을 푸는 방법으로 계수를 구한다.
RSE와 MSE는 SSE를 표준화한 개념이다.
SST(y의 변동성/분산, Total sum of squares)=SSE(x를 통해 y를 설명하지 못하는 변동성/분산, Error sum of squares)+SSR(독립변수 x들로 y를 설명할 수 있는 변동성/분산, Regression sum of squares)
선형회귀의 정확도 평가
- R^2는 입력변수 x로 설명할 수 있는 y의 변동을 의미한다.
- R^2는 RSE의 단점을 보완한 평가지표로 0~1의 범위값을 가짐
- R^2의 값이 1에 가까울수록 선형회귀 모형의 설명력이 높다(즉 보다 정확하다)
- R^2=1-SSE/SST=SSR/SST
- 즉 회귀분석은 y의 변동성을 독립변수인 x가 얼마나 잘 설명하는가를 분석하는 것이다.
- 변수가 여러개일때 각각의 독립변수 x가 y를 설명하는 변동성이 크면 좋은 변수이며, 낮은 p-value 값을 가진다.
회귀계수에 대한 검정
- β1의 표준오차, 표본분포를 사용하여 검정을 진행한다
- 종류: 귀무가설(β1=0, 회귀계수는 0이다, 즉 변수의 설명력이 없다), 대립가설(β1=/=0, 회귀계수는 0이 아니다, 즉 변수의 설명력이 있다)
- 위의 가설을 검증하고자 β1과 β0에 대한 신뢰구간을 구해 검증을 진행한다.
-> 위의 설명은 단순선형회귀분석에 대한 설명이다.
- 단순선형회귀분석 : 변수가 1개인 경우, y=β0 + β1*x
- 다중선형회귀분석 : 변수가 여러개인 경우, y=β0 +β1*x1 + β2*x2
: 다중선형회귀계수 추정의 경우에도, SSE를 최소화하는 방향으로 추정을 진행한다.(각 변수에 대해 편미분 진행)
'Study > Deep_Machine learning' 카테고리의 다른 글
앙상블기법 (0) | 2020.09.06 |
---|---|
기본적인 머신러닝 모형 (0) | 2020.08.22 |
머신러닝 기초5 (0) | 2020.08.17 |
머신러닝 기초4 (0) | 2020.08.14 |
머신러닝 기초3 (0) | 2020.08.11 |