각종꿀팁/IT 자격증

ADsP(데이터분석 준전문가) 3과목 통계분석 시험 요약 공부 - 상관분석,다차원척도법,주성분분석,시계열예측,정상성,시계열모형,분해시계열

금융원픽 2024. 11. 2. 02:32


이 글의 요약

  • 피어슨상관계수는 0에 가까울수록 상관관계가 약한 것을 의미하고 +1에 가까울수록 강한 상관관계가 있다.
  • 공분산이 0이라면 두 변수간에는 아무런 선형관계가 없음을 의미한다.
  • 시계열의 평균이 일정하지 않을 때는 원시계열에 차분(현재 시점에서 바로 전 시점의 자료 값을 빼는 것)
  • 계절성을 갖는 비정상 시계열은 정상 시계열로 변환할 때 계절차분을 사용
  • 일반적으로 자기회귀모형은 자기상관함수(ACF)가 시차가 증가함에 따라 점차적으로 감소하고, 부분자기상관함수(PACF)는 p+1 시차 이후 급격히 감소하여 절단된 형태를 취한다.

아래에서 자세히 확인하세요▼

 

 



 


목차


상관분석, 다차원척도법, 주성분분석

  • 상관분석은 데이터 안의 두 변수 간의 관련성을 파악하는 방법이다.
  • 상관계수로는 변수 간의 유의성을 확인할 수 없다.
  • 이는 cor.test() 함수를 사용해 상관계수 검정을 통해 상관계수의 유의성 검정을 판단할 수 있다.
  • 상관분석은 두 변수의 인과관계를 알 수 없다.
  • 인과관계는 회귀분석을 통해 가능하다.
  • 상관분석의 유의확률 정보로 상관성의 방향을 알 수 없다.
  • 유의확률 범위 내에 상관성을 갖지만 방향까지는 알 수 없다.

 

상관분석의 기본 가정

  1. 변수들 간의 선형성을 충족시켜야 한다.
  2. 등분산성이 가정을 충족시켜야 한다.
  3. 이상치 유무를 파악하여 제거해야 한다.
  4. 변수는 등간 또는 비율척도로 구성되어야 한다.

 

공분산 피어슨 상관계수 스피어만 상관계수
두 변수 간의 상관성을 나타내지만 관계성을 알기는 어렵다.
측정단위에 영향을 받는다.
공분산이 0이라면 두 변수간에는 아무런 선형관계가 없음을 의미한다.
인과관계 확인할 수 없다.
변수 간의 유의성을 확인할 수 없다.
두 변수 간의 선형관계 측정
연속형 변수만 가능(등간척도, 비율척도)
-1부터 +1 사이의 값을 갖는다.
0에 가까울수록 상관관계가 약한 것을 의미하고 +1에 가까울수록 강한 상관관계가 있다.
cor.test() 함수를 사용해 상관계수 검정을 수행하여 상관계수의 유의성 검정을 판단할 수 있다.
두 변수 간의 비선형적 관계 측정
연속형 외에 순위척도 사용 가능

 

다차원척도법

  • 여러 대상 간의 관계에 대한 수치적 자료를 이용해 유사성에 대한 측정치를 상대적 거리로 시각화하는 방법
  • 다차원척도법의 척도는 스트레스 값 0~1 사이의 범위로 0에 가까울 수록 좋은 모형이다.

 

주성분분석

  • 주성분분석은 변수들의 선형결합으로 이루어진 서로 독립이며 기존자료보다 적은 수의 주성분들로 기존 자료의 변동을 설명하게 된다.
  • 다른 통계적 분석을 하기 위한 사전분석이다.
  • 독립변수들과 주성분과의 거리인 정보손실량을 최소화하거나 분산을 최대화한다.
  • 가능한 한 많은 정보를 보존하고자 하는 분석기법이다.
  • 문제점은 측정 단위에 따라 분산이 크게 달라진다는 것이다.
  • 회귀분석 다중공선성 문제 해결을 위해 사용한다.
  • 목표변수를 고려한다.

 

차원의 저주

  • 차원(변수)의 수가 늘어나 차원이 커지면서 발생하는 문제
  • 복잡함을 줄이려면 차원축소 또는 주성분분석이 필요하다.

 

주성분분석의 결정기준

  1. 성분들이 설명하는 분산의 비율 : 총 분산의 비율이 70~90% 사이가 되는 주성분의 개수를 선택한다.
  2. 고윳값이 1이상
  3. Scree Plot 에서 엘보우 포인트
  4. 개별 고윳값의 분해 가능여부는 고려하지 않는다.

 

biplot() 함수

  • 제1주성분과 제2주성분만을 구해 2차원의 점그래프로 표현하는 것이 일반적이다.
  • 제1주성분을 기준으로 같은 방향은 Murder, Assault, Rape이고, UrbanPop 만 방향이 다르게 나타났다.
  • comp와 화살표가 평행할수록 상관계수가 크기 때문에 Murder, Assault, Rape 변수들에 대해 큰 가중치가 적용되었음을 알 수 있다.

출처 : https://www.google.com/url?sa=i&url=https%3A%2F%2Fwooiljeong.github.io%2Fetc%2Fadp_analysis_04%2F&psig=AOvVaw2LdRRdnMNxu4qEiiNuiNGR&ust=1730562836701000&source=images&cd=vfe&opi=89978449&ved=0CBQQjRxqFwoTCMi5yIu_u4kDFQAAAAAdAAAAABAJ

 

 

목차로 올라가기▶

반응형

시계열 예측, 정상성

정상성은 3가지 조건 만족시켜야 한다. ★

  1. 평균값은 시간 t에 관계없이 일정하다.
  2. 분산값은 시간 t에 관계없이 일정하다.
  3. 공분산은 시간 t에 의존하지 않고 오직 시차에만 의존한다.

즉, 정상성은 시계열의 수준과 분산에 체계적인 변화가 없고 엄밀하게 주기적 변동이 없음을 의미한다.

 

  • 정상성을 만족하지 못하면 비정상 시계열이다.
  • 대부분의 시계열 자료는 비정상 시계열이다.

 

비정상 시계열을 정상 시계열로 전환하는 방법 ★

  1. 시계열의 평균이 일정하지 않을 때는 원시계열에 차분(현재 시점에서 바로 전 시점의 자료 값을 빼는 것)
  2. 계절성을 갖는 비정상 시계열은 정상 시계열로 변환할 때 계절차분을 사용
  3. 분산이 일정하지 않은 경우에는 원계열에 자연로그 변환을 취하면 됨

 

시계열 분석 방법

시계열 요소 분해법 : 4가지 변동요인을 찾아서 시각적으로 분석하는 기법

평활법 : 시계열 자료의 체계적인 자료의 흐름을 파악하기 위해서 과거 자료의 불규칙적인 변동을 제거하는 방법

  • 이동평균법 : 시계열 자료를 대상으로 일정한 기간의 자료를 평균으로 계산하고, 이동시킨 추세를 파악하여 다음 기간의 추세를 예측하는 방법. 즉 시계열 자료에서 계절변동과 불규칙변동을 제거하여 추세변동과 순환변동만 갖는 시계열로 변환하는 방법.
  • 지수평활법 : 전체 시계열 자료를 이용하여 평균을 구하고 최근 시계열에 더 큰 가중치를 적용하는 방법

ARIMA 모형법 : 시계열 모형은 정상성의 조건 유무에 따라 다음과 같이 두 가지 형태로 분류된다.

  • 정상성을 가진 시계열 모형 : 자기회귀모형(AR), 이동평균모형(MA), 자기회귀이동평균모형(ARMA)
  • 비정상성을 가진 시계열 모형 : 자기회귀누적이동평균모형(ARIMA)

 

목차로 올라가기▶


시계열 모형, 분해시계열

자기회귀모형(AR)

  • 자기 자신의 과거 값을 사용, 유한개의 과거자료, AP(p) 모형
  • 목적은 현 시점의 시계열 자료에 몇 번째 전 자료까지 영향을 주는지 알아내는 데 있다.
  • 일반적으로 자기회귀모형은 자기상관함수(ACF)가 시차가 증가함에 따라 점차적으로 감소하고, 부분자기상관함수(PACF)는 p+1 시차 이후 급격히 감소하여 절단된 형태를 취한다.

출처 : https://www.google.com/url?sa=i&url=https%3A%2F%2Ffreshrimpsushi.github.io%2Fko%2Fposts%2F1216%2F&psig=AOvVaw1l3u4Cr4NewRTOcl8UmaCc&ust=1730563720391000&source=images&cd=vfe&opi=89978449&ved=0CBQQjRxqFwoTCNDlxbrCu4kDFQAAAAAdAAAAABAE

 

이동평균모형(MA)

  • 현 시점의 자료를 유한개의 백색잡음의 선형결합으로 표현되어 항상 정상성을 만족한다.
  • 자기회귀모형과 반대로 자기상관함수(ACF)는 p+1 시차 이후 절단된 형태이며, 부분자기상관함수(PACF)는 점차 감소하는 형태를 띤다.

 

백색잡음

  1. 서로 독립
  2. 평균이 0
  3. 분산은 일정

 

자기회귀이동평균모형(ARMA)

시계열 자료가 AR모형과 MA모형의 요인을 동시에 가지고 있는 경우이다.

 

자기회귀누적이동모형(ARIMA)

  • 대부분의 많은 시계열 자료가 이 모형을 따른다.
  • 이는 비정상 시계열 모형이기 때문에 차분이나 변환을 통해 AR, MA, ARMA 모형으로 정상화 할 수 있다.
  • ARIMA(p,d,q) 모형에서 p는 AR모형, q는 MA 모형과 관련이 있고 d 는 ARMA로 정상화할 때 몇 번 차분했는지를 의미한다.

 

분해시계열

시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법이다.

  1. 추세요인 : 자료가 어떤 특정한 형태를 취할 때
  2. 계절요인 : 계절에 따라 고정된 주기에 따라 자료가 변화할 때
  3. 순환요인 : 알려지지 않은 주기를 가지고 자료가 변화할 때
  4. 불규칙요인 : 위 세 가지 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인

 

목차로 올라가기▶

참고자료 : ADsP한권으로끝내기(김계철 지음)


<함께보면 좋은 글>

 

ADsP(데이터분석 준전문가) 자격 안내, 시험 일정, 공부 방법

이 글의 요약ADsP(데이터분석 준전문가) 란 데이터 이해에 대한 기본지식을 바탕으로 데이터분석 기획 및 데이터분석 등의 직무를 수행하는 실무자이다.시험과목은 데이터 이해, 데이터분석 기

jomosi.tistory.com

 

ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부

이 글의 요약데이터, 정보, 지식을 통해 최종적으로 지혜를 얻어내는 과정을 피라미드 형태로 나타낸 것이 DIKW 피라미드이다. 예시로는 데이터(Data)는 A마트의 연필 가격은 100원, B마트의 연필 가

jomosi.tistory.com

 

ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부 - 빅데이터, 개인정보, 데이터 3법

이 글의 요약빅데이터는 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 변화를 의미함. 빅데이터 시대의 위기 요인에는 사생활 침해,

jomosi.tistory.com

 

ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부 - 데이터 사이언티스트, ETL, 하둡

이 글의 요약데이터 사이언티스트가 갖춰야 할 역량(가트너) 4가지는 데이터 관리(데이터에 대한 이해), 분석 모델링(분석론에 대한 지식), 비즈니스 분석(비즈니스 요소에 초점), 소프트 기능(커

jomosi.tistory.com

 

ADsP(데이터분석 준전문가) 2과목 데이터 분석 기획 시험 요약 공부 - 분석 주제 유형, KDD분석방법

이 글의 요약분석 방법론의 구성 요소 4가지 : 상세한 절차(Procedure), 방법(Methods), 도구와 기법(Tools & Techniques), 템플릿과 산출물(Templates & Outputs) KDD(Knowledge Discovery in Database)는 1996년 Fayyad가 체계적

jomosi.tistory.com

 

ADsP(데이터분석 준전문가) 2과목 데이터 분석 기획 시험 요약 공부 - 애자일모델, 워터폴모델, 분

이 글의 요약 상향식 접근 방식 이란 문제의 정의 자체가 어려울 경우 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 이를 지속적으로 개선하는 방식이다. - Diverse(발산), 애자일 모

jomosi.tistory.com

 

ADsP(데이터분석 준전문가) 2과목 데이터 분석 기획 시험 요약 공부 - 분석 마스터플랜, 분석 거버

이 글의 요약반복적인 분석 체계는 모든 단계를 반복하기보다 데이터 수집 및 확보와 분석 데이터를 준비하는 단계를 순차적으로 진행하고, 모델링 단계는 반복적으로 수행하는 혼합형을 많이

jomosi.tistory.com

 

ADsP(데이터분석 준전문가) 3과목 통계분석 시험 요약 공부 - 표본추출방법,자료의종류,척도,조건

이 글의 요약등간척도(양적척도=양적자료) : 순위를 부여하되 순위 사이의 간격이 동일하여 양적인 비교가 가능하다. 단, 절대 0점이 존재하지 않는다(예시 : 온도계 수치, 물가지수, 리커트 척도

jomosi.tistory.com

 

트위터 아이디 찾기

이 글의 요약 회원가입을 한 후에 이메일을 입력한 후 "이미 등록된 이메일입니다." 라는 문구가 뜨면 해당 이메일 주소로 트위터 아이디 찾기 새로운 이메일로 회원가입을 한 후에 @twittersupport

jomosi.tistory.com

 

ENA, ENA PLAY, ENA DRAMA 편성표 및 채널번호

ENA 채널은 Entertainment DNA 의 약자로 KT 그룹 계열사인 skyTV(스카이라이프) 가 운영하는 채널입니다. ENA 외에 ENA PLAY, ENA DRAMA, ENA STORY 등 다양한 채널을 주제에 맞게 방영하고 있으며 최근에는 오은

jomosi.tistory.com

 

알바천국 이력서 양식 다운

▼아르바이트 이력서 양식 다운로드(doc 파일, hwp 파일)▼ 아래에서 자세히 확인하세요▼ 알바천국, 알바몬, 사람인, 잡코리아 등 인력 채용 플랫폼이 경쟁하며 시장에서 활발하게 활동하고 있습

jomosi.tistory.com

반응형