ADsP(데이터분석 준전문가) 3과목 통계분석 시험 요약 공부 - 회귀분석,다중공선성,선형회귀모형,다중선형회귀모형분산분석표,단계적변수선택

각종꿀팁/IT 자격증

ADsP(데이터분석 준전문가) 3과목 통계분석 시험 요약 공부 - 회귀분석,다중공선성,선형회귀모형,다중선형회귀모형분산분석표,단계적변수선택

금융원픽 2024. 11. 2. 04:01

이 글의 요약

독립변수(설명변수)가 종속변수(반응변수)에 미치는 영향력을 분석하거나, 독립변수에 따라 종속변수의 변화를 예측하기 위해서 사용하는 통계기법이다.
회귀분석모형은 선형성, 독립성, 등분산성, 비상관성, 정규성을 기본 가정으로 한다.
회귀분석모형의 결정계수의 값이 1에 근접할수록 회귀선의 추정치를 잘 반영하고 있다고 볼 수 있다.
릿지는 L2-norm 정규화이고, 라쏘는 L2-norm 정규화라고 한다.
전진선택법 : 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가한다. 한 번 추가된 변수는 제거할 수 없다.
후진제거법 : 독립변수 후보를 모두 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 유의하지 않는 변수가 없을 때까지 한다. 한 번 제거된 변수는 추가할 수 없다.

아래에서 자세히 확인하세요▼

회귀분석

독립변수(설명변수)가 종속변수(반응변수)에 미치는 영향력을 분석하거나, 독립변수에 따라 종속변수의 변화를 예측하기 위해서 사용하는 통계기법이다.
둘 이상의 변수 간에 미치는 영향관계를 통한 예측을 목표로 한다.
자료의 척도는 일반적으로 등간척도 또는 비율척도이어야 한다.
독립변수가 범주형 척도이면 이를 가변수를 만들어서 이용한다.
종속변수가 이변량 변수이면 로지스틱 회귀분석을 이용한다.
회귀계수의 추정량은 최소제곱추정량이라고 한다.

최소제곱법

출처 : https://www.google.com/url?sa=i&url=https%3A%2F%2Fthebook.io%2F080289%2F0117%2F&psig=AOvVaw3kOhA4CGLWnf1u6DjAkwQa&ust=1730556697330000&source=images&cd=vfe&opi=89978449&ved=0CBQQjRxqFwoTCNi60Z6ou4kDFQAAAAAdAAAAABAE

선형회귀식의 기울기 = 회귀계수
최소제곱법은 Unbias 에 초점을 둔 모델이다.

회귀분석 모형에서 체크해야 할 사항

구분	확인사항
회귀모형이 통계적으로 유의미한가?	F통계량을 확인한다. 유의수준 5% 하에서 F통계량의 p값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의하다고 볼 수 있다.
회귀계수들이 유의미한가?	해당 계수의 t통계량과 p-값 또는 이들의 신뢰구간을 확인한다.
모형이 얼마나 설명력을 갖는가?	결정계수를 확인한다. 결정계수는 0~1의 값을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높다.
모형이 데이터를 잘 적합하고 있는가?	잔차의 그래프로 그리고 회귀진단을 한다.
데이터가 아래의 모형가정을 만족시키는가? ★★	(선형성) 독립변수의 변화에 따라 종속변수도 일정크기로 변화. U자형곡선패턴을 나타낼 때는 제곱항을 모형에 추가하는 다항회귀로 분석한다. (독립성) 잔차와 독립변수의 값이 관련돼있지 않다. 더빈-왓슨 테스트는 회귀분석 후 잔차의 독립성을 확인할 때 쓰며 잔차끼리 자기상관성이 있는지 없는지를 판단한다. (등분산성) 독립변수의 모든 값에 대해 오차들의 분산이 일정. 분산이 일정하지 않으면 가중회귀를 쓰거나 종속변수를 변화시킨다. (비상관성) 관측치들의 잔차들끼리 상관이 없어야 한다. (정규성=정상성) 잔차항이 정규분포를 형성해야 한다. Q-Q plot, 샤피로-윌크검정, 콜모고로프-스미르노프검정, 앤더스달링검정

회귀분석모형은 선형성, 독립성, 등분산성, 비상관성, 정규성을 기본 가정으로 한다.

다중회귀분석 : 설명변수가 k개이며 반응변수와의 관계가 선형관계임.
다항회귀분석 : 설명변수의 차수를 높이는 형태로 제곱을 추가하여 비선형 데이터를 선형 회귀 모델로 훈련시키는 방법임.

목차로 올라가기▶

다중공선성, 선형회귀모형

다중공선성이란 모형의 일부 독립변수가 다른 독립변수와 상관되어 있을 때 발생한다.
다중공선성 여부는 분산 팽창계수 VIF = 1 / (1-R^2) 로 판정하는데 VIF 가 10 이하이면 다중공선성 문제가 적은 것이다.

다중공선성 해결방안

중요하지 않은 변수는 제거한다.
능형(릿지)회귀분, 주성분회귀분석 등 편의 추정법을 사용한다.
자료부족이 원인일 경우 자료를 보완한다.
변수의 상관관계에 따라 변수를 통합한다.

회귀분석모형의 적합도 검정

출처 : https://www.google.com/imgres?q=%ED%9A%8C%EA%B7%80%EB%B6%84%EC%84%9D%EB%AA%A8%ED%98%95%EC%9D%98%20%EC%A0%81%ED%95%A9%EB%8F%84%20%EA%B2%80%EC%A0%95&imgurl=https%3A%2F%2Fmodulabs.co.kr%2Fwp-content%2Fuploads%2F2024%2F06%2F%25EA%25B2%25B0%25EC%25A0%2595%25EA%25B3%2584%25EC%2588%2598.jpg&imgrefurl=https%3A%2F%2Fmodulabs.co.kr%2Fblog%2Fr-squared%2F&docid=oiCD8Lybeg7mRM&tbnid=KpXBlhdCBpP70M&vet=12ahUKEwjv2tOvrruJAxUgh1YBHXwTJXEQM3oECHQQAA..i&w=960&h=559&hcb=2&itg=1&ved=2ahUKEwjv2tOvrruJAxUgh1YBHXwTJXEQM3oECHQQAA

회귀분석모형의 결정계수의 값이 1에 근접할수록 회귀선의 추정치를 잘 반영하고 있다고 볼 수 있다.

정규화 선형회귀 모형

릿지(Ridge)	라쏘(Lasso)	엘라스틱넷(Elastic Net)
L2-norm 정규화	L1-norm 정규화	L1-norm, L2-norm 정규화
변수 선택 불가능	변수 선택 가능	변수 선택 가능
변수 간 상관관계가 높은 상황에서 좋은 예측 성능	변수 간 상관관계가 높은 상황에서 릿지에 비해 상대적 예측 성능이 떨어짐	상관관계 큰 변수를 동시에 선택, 배제하는 특성

릿지는 L2-norm 정규화이고, 라쏘는 L2-norm 정규화라고 한다.

목차로 올라가기▶

다중선형회귀분석의 분산분석표, 단계적 변수선택

다중선형회귀분석의 분산분석표

출처 : https://www.google.com/url?sa=i&url=https%3A%2F%2Fvelog.io%2F%40dnddl9368%2FADsP-17.-%25ED%259A%258C%25EA%25B7%2580%25EB%25B6%2584%25EC%2584%259D&psig=AOvVaw2qKVXoKiX2v--LbT0OKXJm&ust=1730557483788000&source=images&cd=vfe&opi=89978449&ved=0CBQQjRxqFwoTCKjjkJqru4kDFQAAAAAdAAAAABAJ

회귀분석 설명

독립변수와 종속변수의 인과관계가 중요하다.
성별과 같이 두집단으로 분류된 명목형 자료는 회귀분석에서 독립변수로 사용할 수 있다.
잔차와 독립변수의 값이 관련해 있지 않아야 한다.
결정계수는 독립변수가 종속변수를 얼마만큼 설명해 주는지를 의미한다.

분산분석표 예제

관측값 12개(=n)를 갖고 수행한 단순회귀분석에서 회귀직선의 유의성 검정을 위해 작성된 분산분석표이다. 빈 칸에 알맞은 것은?

변동	제곱합	자유도	평균제곱	F
회귀	66	1	66	3)
오차	220	1)	2)	3)
전체	286

1) n-2 = 12-2 = 10

2) SSE/(n-2) = 220/(12-2) = 22

3) F = MSR/MSE = 66/22 = 3

단계적 변수선택 ★★

전진선택법 : 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가한다. 한 번 추가된 변수는 제거할 수 없다.

후진제거법 : 독립변수 후보를 모두 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 유의하지 않는 변수가 없을 때까지 한다. 한 번 제거된 변수는 추가할 수 없다.

단계별방법 : 전진선택법에 의해 변수를 추가하면서 중요도 약화 시 제거하는 등 검토할게 없을 때까지 한다.

목차로 올라가기▶

참고자료 : ADsP한권으로끝내기(김계철 지음)

<함께보면 좋은 글>

ADsP(데이터분석 준전문가) 자격 안내, 시험 일정, 공부 방법

이 글의 요약ADsP(데이터분석 준전문가) 란 데이터 이해에 대한 기본지식을 바탕으로 데이터분석 기획 및 데이터분석 등의 직무를 수행하는 실무자이다.시험과목은 데이터 이해, 데이터분석 기

jomosi.tistory.com

ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부

이 글의 요약데이터, 정보, 지식을 통해 최종적으로 지혜를 얻어내는 과정을 피라미드 형태로 나타낸 것이 DIKW 피라미드이다. 예시로는 데이터(Data)는 A마트의 연필 가격은 100원, B마트의 연필 가

jomosi.tistory.com

ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부 - 빅데이터, 개인정보, 데이터 3법

이 글의 요약빅데이터는 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 변화를 의미함. 빅데이터 시대의 위기 요인에는 사생활 침해,

jomosi.tistory.com

ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부 - 데이터 사이언티스트, ETL, 하둡

이 글의 요약데이터 사이언티스트가 갖춰야 할 역량(가트너) 4가지는 데이터 관리(데이터에 대한 이해), 분석 모델링(분석론에 대한 지식), 비즈니스 분석(비즈니스 요소에 초점), 소프트 기능(커

jomosi.tistory.com

ADsP(데이터분석 준전문가) 2과목 데이터 분석 기획 시험 요약 공부 - 분석 주제 유형, KDD분석방법

이 글의 요약분석 방법론의 구성 요소 4가지 : 상세한 절차(Procedure), 방법(Methods), 도구와 기법(Tools & Techniques), 템플릿과 산출물(Templates & Outputs) KDD(Knowledge Discovery in Database)는 1996년 Fayyad가 체계적

jomosi.tistory.com

ADsP(데이터분석 준전문가) 2과목 데이터 분석 기획 시험 요약 공부 - 애자일모델, 워터폴모델, 분

이 글의 요약 상향식 접근 방식 이란 문제의 정의 자체가 어려울 경우 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 이를 지속적으로 개선하는 방식이다. - Diverse(발산), 애자일 모

jomosi.tistory.com

ADsP(데이터분석 준전문가) 2과목 데이터 분석 기획 시험 요약 공부 - 분석 마스터플랜, 분석 거버

이 글의 요약반복적인 분석 체계는 모든 단계를 반복하기보다 데이터 수집 및 확보와 분석 데이터를 준비하는 단계를 순차적으로 진행하고, 모델링 단계는 반복적으로 수행하는 혼합형을 많이

jomosi.tistory.com

ADsP(데이터분석 준전문가) 3과목 통계분석 시험 요약 공부 - 표본추출방법,자료의종류,척도,조건

이 글의 요약등간척도(양적척도=양적자료) : 순위를 부여하되 순위 사이의 간격이 동일하여 양적인 비교가 가능하다. 단, 절대 0점이 존재하지 않는다(예시 : 온도계 수치, 물가지수, 리커트 척도

jomosi.tistory.com

ENA, ENA PLAY, ENA DRAMA 편성표 및 채널번호

ENA 채널은 Entertainment DNA 의 약자로 KT 그룹 계열사인 skyTV(스카이라이프) 가 운영하는 채널입니다. ENA 외에 ENA PLAY, ENA DRAMA, ENA STORY 등 다양한 채널을 주제에 맞게 방영하고 있으며 최근에는 오은

jomosi.tistory.com

트위터 아이디 찾기

이 글의 요약 회원가입을 한 후에 이메일을 입력한 후 "이미 등록된 이메일입니다." 라는 문구가 뜨면 해당 이메일 주소로 트위터 아이디 찾기 새로운 이메일로 회원가입을 한 후에 @twittersupport

jomosi.tistory.com

알바천국 이력서 양식 다운

▼아르바이트 이력서 양식 다운로드(doc 파일, hwp 파일)▼ 아래에서 자세히 확인하세요▼ 알바천국, 알바몬, 사람인, 잡코리아 등 인력 채용 플랫폼이 경쟁하며 시장에서 활발하게 활동하고 있습

jomosi.tistory.com

저작자표시 비영리 변경금지

'각종꿀팁 > IT 자격증' 카테고리의 다른 글

ADsP(데이터분석 준전문가) 3과목 통계분석 시험 요약 공부 - 상관분석,다차원척도법,주성분분석,시계열예측,정상성,시계열모형,분해시계열 (0)	2024.11.02
ADsP(데이터분석 준전문가) 3과목 통계분석 시험 요약 공부 - 표본추출방법,자료의종류,척도,조건부확률,베이즈정리,이산확률분포,연속확률분포,기댓값(평균)과 분산,정규분포,표준화,Z검정,가설검정 (0)	2024.11.02
ADsP(데이터분석 준전문가) 3과목 R기초와 데이터마트 시험 요약 공부 - R기초,벡터,상자그림,이상값,결측값,reshape패키지,plyr패키지,sqldf패키지 (0)	2024.11.01
ADsP(데이터분석 준전문가) 2과목 데이터 분석 기획 시험 요약 공부 - 분석 마스터플랜, 분석 거버넌스, 분석업무 수행 주체, 분석 과제 관리 프로세스 (0)	2024.11.01
ADsP(데이터분석 준전문가) 2과목 데이터 분석 기획 시험 요약 공부 - 애자일모델, 워터폴모델, 분석과제정의서, 분석프로젝트관리방안 (0)	2024.10.31

현재글ADsP(데이터분석 준전문가) 3과목 통계분석 시험 요약 공부 - 회귀분석,다중공선성,선형회귀모형,다중선형회귀모형분산분석표,단계적변수선택

금융원픽