다항함수회귀
선형회귀분석에서는 예측 함수로 단순히 선형직선을 사용한다.
그러나 변수사이의 관계는 단순히 선형적인 관계를 가지지 않을 수도 있다.
이처럼 두 변수사이의 관계가 비 선형적인 관계를 나타낼 수 있다.
이때 예측함수를 단순히 선형함수로 하면 당연히 함수는 예측력이 떨어진다.
따라서 예측함수를 다양한 다른 함수로 설정할 필요가 있다.
즉 함수를 다음과 같이 두고 모수를 추정할 것
왜 다항함수로 해야 하나?
모든 복잡한 함수 f(X)는 다항함수로 근사 할 수 있다...
테일러 급수를 사용하면 미분이 쉬운 다항함수 형태로 근사 할 수 있다
테일러 급수란?
적어도 x=a에서는 유사하게 기존의 함수를 위의식 처럼 다항함수로 근사할 수 있다..
(그냥 복잡한 함수도 다항함수로 근사할 수 있구나 생각하면된다.)
이런 다항함수를 이용한 회귀는 다항함수의 차수에 따라 모수의 개수가 정해진다.
(만약 2차방정식이라면 절편과 1차항의계수 2차항의 계수 총 3개 )
이제 예측함수를 다항함수로 두고 예측함수를 계산해보자.
차수를 달리하며 예측함수를 그려보자
아래와 같은 데이터 분포가 있다고 하자.
<0차>
예측함수를 0차라고 하자 (즉 상수함수라고 하자)
아래 그래프에서 볼수잇듯 대부분의 경우에 대해 설명력이 낮다.
<1차>
예측함수를 1차라고하자
<3차>
주어진 데이터분포를 가장 잘 설명하고 있음
<9차>
예측함수가 9차인경우 주어진 기존의 데이터에 대해서는 올바른 값을 도출하지만
새로운데이터에 대한 예측력은 매우 낮을 것이다.
각각의 경우에 대해 예측해야할 모수의 개수만 달라졌을뿐
목적함수(오차의 평균)에 대해 최소제곱법을 활용하여
목적함수를 최소화하는 모수를 찾는 과정은 동일하게 진행한다. (경사하강법,미분)
목적은?
목적은 단순선형아닌 다항함수로 예측함수를 학습 할 때
차수를 얼마로 하는것이 바람직한가에 대한 결정
위 그래프를보면 주어진 data 분포에 대해서는
예측함수로 3차를 선택하였을때 가장 예측력이 좋을 것임을 알 수 있다.
또한 위의 그래프로 예측모델 학습에 overfitting 과 underfitting에 대한 개념을 이해할 수 있다.
- Overfitting
- Underfitting
차수가 0차에서 점점커질수록 기존의 data에 대한 설명력과 더불어
새로운 data에 대한 예측력도 올라감
(1차보다는 2차가 2차보다는 3차가 기존의 데이터와 새로운 데이터에 대해 잘 설명한다)
차수가 점진적으로 커지면 기존의 data에 대한 설명력은 올라가지만
새로운 data에 대한 예측력은 확연히 감소할 것이다.
주어진 그래프를 보면 3차이후로는 data에대한 예측력이 큰 변화가 없음.
9차부터는 과대적합되어 기존의 data에 대한 오차는 매우 작다.
새로운 test data에 대해서는 오차가 매우커진다.
'회귀분석' 카테고리의 다른 글
릿지 회귀(Ridge Regression) (2) | 2024.09.25 |
---|---|
최소제곱법 (0) | 2024.07.09 |
회귀분석 (0) | 2024.05.16 |