이 글의 요약
- 피어슨상관계수는 0에 가까울수록 상관관계가 약한 것을 의미하고 +1에 가까울수록 강한 상관관계가 있다.
- 공분산이 0이라면 두 변수간에는 아무런 선형관계가 없음을 의미한다.
- 시계열의 평균이 일정하지 않을 때는 원시계열에 차분(현재 시점에서 바로 전 시점의 자료 값을 빼는 것)
- 계절성을 갖는 비정상 시계열은 정상 시계열로 변환할 때 계절차분을 사용
- 일반적으로 자기회귀모형은 자기상관함수(ACF)가 시차가 증가함에 따라 점차적으로 감소하고, 부분자기상관함수(PACF)는 p+1 시차 이후 급격히 감소하여 절단된 형태를 취한다.
목차
상관분석, 다차원척도법, 주성분분석
- 상관분석은 데이터 안의 두 변수 간의 관련성을 파악하는 방법이다.
- 상관계수로는 변수 간의 유의성을 확인할 수 없다.
- 이는 cor.test() 함수를 사용해 상관계수 검정을 통해 상관계수의 유의성 검정을 판단할 수 있다.
- 상관분석은 두 변수의 인과관계를 알 수 없다.
- 인과관계는 회귀분석을 통해 가능하다.
- 상관분석의 유의확률 정보로 상관성의 방향을 알 수 없다.
- 유의확률 범위 내에 상관성을 갖지만 방향까지는 알 수 없다.
상관분석의 기본 가정
- 변수들 간의 선형성을 충족시켜야 한다.
- 등분산성이 가정을 충족시켜야 한다.
- 이상치 유무를 파악하여 제거해야 한다.
- 변수는 등간 또는 비율척도로 구성되어야 한다.
공분산 | 피어슨 상관계수 | 스피어만 상관계수 |
두 변수 간의 상관성을 나타내지만 관계성을 알기는 어렵다. 측정단위에 영향을 받는다. 공분산이 0이라면 두 변수간에는 아무런 선형관계가 없음을 의미한다. 인과관계 확인할 수 없다. 변수 간의 유의성을 확인할 수 없다. |
두 변수 간의 선형관계 측정 연속형 변수만 가능(등간척도, 비율척도) -1부터 +1 사이의 값을 갖는다. 0에 가까울수록 상관관계가 약한 것을 의미하고 +1에 가까울수록 강한 상관관계가 있다. cor.test() 함수를 사용해 상관계수 검정을 수행하여 상관계수의 유의성 검정을 판단할 수 있다. |
두 변수 간의 비선형적 관계 측정 연속형 외에 순위척도 사용 가능 |
다차원척도법
- 여러 대상 간의 관계에 대한 수치적 자료를 이용해 유사성에 대한 측정치를 상대적 거리로 시각화하는 방법
- 다차원척도법의 척도는 스트레스 값 0~1 사이의 범위로 0에 가까울 수록 좋은 모형이다.
주성분분석
- 주성분분석은 변수들의 선형결합으로 이루어진 서로 독립이며 기존자료보다 적은 수의 주성분들로 기존 자료의 변동을 설명하게 된다.
- 다른 통계적 분석을 하기 위한 사전분석이다.
- 독립변수들과 주성분과의 거리인 정보손실량을 최소화하거나 분산을 최대화한다.
- 가능한 한 많은 정보를 보존하고자 하는 분석기법이다.
- 문제점은 측정 단위에 따라 분산이 크게 달라진다는 것이다.
- 회귀분석 다중공선성 문제 해결을 위해 사용한다.
- 목표변수를 고려한다.
차원의 저주
- 차원(변수)의 수가 늘어나 차원이 커지면서 발생하는 문제
- 복잡함을 줄이려면 차원축소 또는 주성분분석이 필요하다.
주성분분석의 결정기준
- 성분들이 설명하는 분산의 비율 : 총 분산의 비율이 70~90% 사이가 되는 주성분의 개수를 선택한다.
- 고윳값이 1이상
- Scree Plot 에서 엘보우 포인트
- 개별 고윳값의 분해 가능여부는 고려하지 않는다.
biplot() 함수
- 제1주성분과 제2주성분만을 구해 2차원의 점그래프로 표현하는 것이 일반적이다.
- 제1주성분을 기준으로 같은 방향은 Murder, Assault, Rape이고, UrbanPop 만 방향이 다르게 나타났다.
- comp와 화살표가 평행할수록 상관계수가 크기 때문에 Murder, Assault, Rape 변수들에 대해 큰 가중치가 적용되었음을 알 수 있다.
반응형
시계열 예측, 정상성
정상성은 3가지 조건 만족시켜야 한다. ★
- 평균값은 시간 t에 관계없이 일정하다.
- 분산값은 시간 t에 관계없이 일정하다.
- 공분산은 시간 t에 의존하지 않고 오직 시차에만 의존한다.
즉, 정상성은 시계열의 수준과 분산에 체계적인 변화가 없고 엄밀하게 주기적 변동이 없음을 의미한다.
- 정상성을 만족하지 못하면 비정상 시계열이다.
- 대부분의 시계열 자료는 비정상 시계열이다.
비정상 시계열을 정상 시계열로 전환하는 방법 ★
- 시계열의 평균이 일정하지 않을 때는 원시계열에 차분(현재 시점에서 바로 전 시점의 자료 값을 빼는 것)
- 계절성을 갖는 비정상 시계열은 정상 시계열로 변환할 때 계절차분을 사용
- 분산이 일정하지 않은 경우에는 원계열에 자연로그 변환을 취하면 됨
시계열 분석 방법
시계열 요소 분해법 : 4가지 변동요인을 찾아서 시각적으로 분석하는 기법
평활법 : 시계열 자료의 체계적인 자료의 흐름을 파악하기 위해서 과거 자료의 불규칙적인 변동을 제거하는 방법
- 이동평균법 : 시계열 자료를 대상으로 일정한 기간의 자료를 평균으로 계산하고, 이동시킨 추세를 파악하여 다음 기간의 추세를 예측하는 방법. 즉 시계열 자료에서 계절변동과 불규칙변동을 제거하여 추세변동과 순환변동만 갖는 시계열로 변환하는 방법.
- 지수평활법 : 전체 시계열 자료를 이용하여 평균을 구하고 최근 시계열에 더 큰 가중치를 적용하는 방법
ARIMA 모형법 : 시계열 모형은 정상성의 조건 유무에 따라 다음과 같이 두 가지 형태로 분류된다.
- 정상성을 가진 시계열 모형 : 자기회귀모형(AR), 이동평균모형(MA), 자기회귀이동평균모형(ARMA)
- 비정상성을 가진 시계열 모형 : 자기회귀누적이동평균모형(ARIMA)
시계열 모형, 분해시계열
자기회귀모형(AR)
- 자기 자신의 과거 값을 사용, 유한개의 과거자료, AP(p) 모형
- 목적은 현 시점의 시계열 자료에 몇 번째 전 자료까지 영향을 주는지 알아내는 데 있다.
- 일반적으로 자기회귀모형은 자기상관함수(ACF)가 시차가 증가함에 따라 점차적으로 감소하고, 부분자기상관함수(PACF)는 p+1 시차 이후 급격히 감소하여 절단된 형태를 취한다.
이동평균모형(MA)
- 현 시점의 자료를 유한개의 백색잡음의 선형결합으로 표현되어 항상 정상성을 만족한다.
- 자기회귀모형과 반대로 자기상관함수(ACF)는 p+1 시차 이후 절단된 형태이며, 부분자기상관함수(PACF)는 점차 감소하는 형태를 띤다.
백색잡음
- 서로 독립
- 평균이 0
- 분산은 일정
자기회귀이동평균모형(ARMA)
시계열 자료가 AR모형과 MA모형의 요인을 동시에 가지고 있는 경우이다.
자기회귀누적이동모형(ARIMA)
- 대부분의 많은 시계열 자료가 이 모형을 따른다.
- 이는 비정상 시계열 모형이기 때문에 차분이나 변환을 통해 AR, MA, ARMA 모형으로 정상화 할 수 있다.
- ARIMA(p,d,q) 모형에서 p는 AR모형, q는 MA 모형과 관련이 있고 d 는 ARMA로 정상화할 때 몇 번 차분했는지를 의미한다.
분해시계열
시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법이다.
- 추세요인 : 자료가 어떤 특정한 형태를 취할 때
- 계절요인 : 계절에 따라 고정된 주기에 따라 자료가 변화할 때
- 순환요인 : 알려지지 않은 주기를 가지고 자료가 변화할 때
- 불규칙요인 : 위 세 가지 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인
참고자료 : ADsP한권으로끝내기(김계철 지음)
<함께보면 좋은 글>
반응형