이 글의 요약
- 독립변수(설명변수)가 종속변수(반응변수)에 미치는 영향력을 분석하거나, 독립변수에 따라 종속변수의 변화를 예측하기 위해서 사용하는 통계기법이다.
- 회귀분석모형은 선형성, 독립성, 등분산성, 비상관성, 정규성을 기본 가정으로 한다.
- 회귀분석모형의 결정계수의 값이 1에 근접할수록 회귀선의 추정치를 잘 반영하고 있다고 볼 수 있다.
- 릿지는 L2-norm 정규화이고, 라쏘는 L2-norm 정규화라고 한다.
- 전진선택법 : 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가한다. 한 번 추가된 변수는 제거할 수 없다.
- 후진제거법 : 독립변수 후보를 모두 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 유의하지 않는 변수가 없을 때까지 한다. 한 번 제거된 변수는 추가할 수 없다.
목차
회귀분석
- 독립변수(설명변수)가 종속변수(반응변수)에 미치는 영향력을 분석하거나, 독립변수에 따라 종속변수의 변화를 예측하기 위해서 사용하는 통계기법이다.
- 둘 이상의 변수 간에 미치는 영향관계를 통한 예측을 목표로 한다.
- 자료의 척도는 일반적으로 등간척도 또는 비율척도이어야 한다.
- 독립변수가 범주형 척도이면 이를 가변수를 만들어서 이용한다.
- 종속변수가 이변량 변수이면 로지스틱 회귀분석을 이용한다.
- 회귀계수의 추정량은 최소제곱추정량이라고 한다.
최소제곱법
- 선형회귀식의 기울기 = 회귀계수
- 최소제곱법은 Unbias 에 초점을 둔 모델이다.
회귀분석 모형에서 체크해야 할 사항
구분 | 확인사항 |
회귀모형이 통계적으로 유의미한가? | F통계량을 확인한다. 유의수준 5% 하에서 F통계량의 p값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의하다고 볼 수 있다. |
회귀계수들이 유의미한가? | 해당 계수의 t통계량과 p-값 또는 이들의 신뢰구간을 확인한다. |
모형이 얼마나 설명력을 갖는가? | 결정계수를 확인한다. 결정계수는 0~1의 값을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높다. |
모형이 데이터를 잘 적합하고 있는가? | 잔차의 그래프로 그리고 회귀진단을 한다. |
데이터가 아래의 모형가정을 만족시키는가? ★★ | (선형성) 독립변수의 변화에 따라 종속변수도 일정크기로 변화. U자형곡선패턴을 나타낼 때는 제곱항을 모형에 추가하는 다항회귀로 분석한다. (독립성) 잔차와 독립변수의 값이 관련돼있지 않다. 더빈-왓슨 테스트는 회귀분석 후 잔차의 독립성을 확인할 때 쓰며 잔차끼리 자기상관성이 있는지 없는지를 판단한다. (등분산성) 독립변수의 모든 값에 대해 오차들의 분산이 일정. 분산이 일정하지 않으면 가중회귀를 쓰거나 종속변수를 변화시킨다. (비상관성) 관측치들의 잔차들끼리 상관이 없어야 한다. (정규성=정상성) 잔차항이 정규분포를 형성해야 한다. Q-Q plot, 샤피로-윌크검정, 콜모고로프-스미르노프검정, 앤더스달링검정 |
회귀분석모형은 선형성, 독립성, 등분산성, 비상관성, 정규성을 기본 가정으로 한다.
- 다중회귀분석 : 설명변수가 k개이며 반응변수와의 관계가 선형관계임.
- 다항회귀분석 : 설명변수의 차수를 높이는 형태로 제곱을 추가하여 비선형 데이터를 선형 회귀 모델로 훈련시키는 방법임.
반응형
다중공선성, 선형회귀모형
- 다중공선성이란 모형의 일부 독립변수가 다른 독립변수와 상관되어 있을 때 발생한다.
- 다중공선성 여부는 분산 팽창계수 VIF = 1 / (1-R^2) 로 판정하는데 VIF 가 10 이하이면 다중공선성 문제가 적은 것이다.
다중공선성 해결방안
- 중요하지 않은 변수는 제거한다.
- 능형(릿지)회귀분, 주성분회귀분석 등 편의 추정법을 사용한다.
- 자료부족이 원인일 경우 자료를 보완한다.
- 변수의 상관관계에 따라 변수를 통합한다.
회귀분석모형의 적합도 검정
회귀분석모형의 결정계수의 값이 1에 근접할수록 회귀선의 추정치를 잘 반영하고 있다고 볼 수 있다.
정규화 선형회귀 모형
릿지(Ridge) | 라쏘(Lasso) | 엘라스틱넷(Elastic Net) |
L2-norm 정규화 | L1-norm 정규화 | L1-norm, L2-norm 정규화 |
변수 선택 불가능 | 변수 선택 가능 | 변수 선택 가능 |
변수 간 상관관계가 높은 상황에서 좋은 예측 성능 | 변수 간 상관관계가 높은 상황에서 릿지에 비해 상대적 예측 성능이 떨어짐 | 상관관계 큰 변수를 동시에 선택, 배제하는 특성 |
릿지는 L2-norm 정규화이고, 라쏘는 L2-norm 정규화라고 한다.
다중선형회귀분석의 분산분석표, 단계적 변수선택
다중선형회귀분석의 분산분석표
회귀분석 설명
- 독립변수와 종속변수의 인과관계가 중요하다.
- 성별과 같이 두집단으로 분류된 명목형 자료는 회귀분석에서 독립변수로 사용할 수 있다.
- 잔차와 독립변수의 값이 관련해 있지 않아야 한다.
- 결정계수는 독립변수가 종속변수를 얼마만큼 설명해 주는지를 의미한다.
분산분석표 예제
관측값 12개(=n)를 갖고 수행한 단순회귀분석에서 회귀직선의 유의성 검정을 위해 작성된 분산분석표이다. 빈 칸에 알맞은 것은?
변동 | 제곱합 | 자유도 | 평균제곱 | F |
회귀 | 66 | 1 | 66 | 3) |
오차 | 220 | 1) | 2) | |
전체 | 286 |
1) n-2 = 12-2 = 10
2) SSE/(n-2) = 220/(12-2) = 22
3) F = MSR/MSE = 66/22 = 3
단계적 변수선택 ★★
전진선택법 : 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가한다. 한 번 추가된 변수는 제거할 수 없다.
후진제거법 : 독립변수 후보를 모두 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 유의하지 않는 변수가 없을 때까지 한다. 한 번 제거된 변수는 추가할 수 없다.
단계별방법 : 전진선택법에 의해 변수를 추가하면서 중요도 약화 시 제거하는 등 검토할게 없을 때까지 한다.
참고자료 : ADsP한권으로끝내기(김계철 지음)
<함께보면 좋은 글>
반응형