이 글의 요약
등간척도(양적척도=양적자료) : 순위를 부여하되 순위 사이의 간격이 동일하여 양적인 비교가 가능하다. 단, 절대 0점이 존재하지 않는다(예시 : 온도계 수치, 물가지수, 리커트 척도 등).
포아송분포 : 단위 시간당 또는 단위 공간당 사건발생 횟수에 적용되는 분포. 일어날 확률이 아주 작은 경우에 적용한다. 예를 들어 어느 집에 한 시간 동안 걸려오는 전화통화수, 하룻동안 정전되는 횟수 등과 같이 희귀한 사건의 수를 확률변수로 할 때이다. 이 분포는 독립성, 비집락성, 비례성이라는 가정을 만족해야 한다. 평균 m, 분산 m. ★
가설검정절차는 검정하려고 하는 모집단에서 추출한 표본으로부터 계산한 검정통계랑의 수치가 유의수준 알파에 따라 결정되는 채택영역에 들어오면 그 귀무가설을 채택하게 된다. 만약 수치가 기각영역에 들어오면 귀무가설 H0를 기각하게 된다.
아래에서 자세히 확인하세요▼
목차
표본추출방법, 자료의 종류, 척도, 조건부확률, 베이즈정리
표본추출방법
확률적 추측
1) 단순 무작위추출
2) 계통추출
모집단의 개체에 일련번호를 부여한 후, 첫 번째 표본을 임의로 선택하고 일정 간격으로 다음 표본을 선택한다.
3) 층화추출 ★
모집단을 성격에 따라 몇 개의 집단 또는 층으로 나누고, 각 집단 내에서 원하는 크기의 표본을 무작위로 추출한다.
층 내는 동질적이고, 층 간에는 이질적이어야 한다.
모집단의 각 층에 대한 정확한 정보를 필요로 한다.
단순무작위 추출 또는 계통추출보다 불필요한 자료의 분산을 축소할 수 있다.
4) 군집추출
모집단을 특성에 따라 여러 개의 집단으로 나눈다. 이들 집단 중에서 몇 개를 선택한 후, 선택된 집단 내에서 필요한 만큼의 표본을 임의로 선택한다.
집단 내에서 이질적이고 집단 간 차이가 동질적이다.
전체 모집단의 목표를 작성하지 않아도 된다.
시간과 비용이 절약된다.
군집이 동질적인 경우 오차 개입 가능성이 크다.
자료의 종류
척도는 측정을 위해 부여한 숫자들 간의 관계를 의미하며, 그 관계에 따라 4가지의 척도로 분류되고, 이 척도의 종류에 따라 자료 분석에 제한이 있다.
명목척도 : 단순히 측정 대상의 특성을 분류하거나 확인하기 위 한 목적으로 숫자를 부여한다(예시 : 성별->남자 1, 여자 2 등)
서열척도(순위척도) : 단순히 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교는 할 수 없다(예시 : 상품에 대한 선호 순위 1,2,3순위, 매우불만족-불만족-보통-만족-매우만족 등).
등간척도(양적척도=양적자료) : 순위를 부여하되 순위 사이의 간격이 동일하여 양적인 비교가 가능하다. 단, 절대 0점이 존재하지 않는다(예시 : 온도계 수치, 물가지수, 리커트 척도 등).
비율척도 : 절대 0점이 존재하여 측정값 사이의 비율 계산이 가능한 척도이다(몸무게).
자료의 척도
명목척도는 중앙값 또는 평균값 계산이 가능하다는 것은 오답 보기이다.
구간척도는 측정 대상이 갖고 있는 속성의 질을 측정한다는 것은 오답 보기이다(질->양).
구간척도는 절대 영점이 존재한다는 것은 오답 보기이다.
조건부확률
출처 : https://www.google.com/url?sa=i&url=https%3A%2F%2Fjobmanager1.tistory.com%2F62&psig=AOvVaw2EJPZTsNUC3xLHNtUycI6p&ust=1730539770503000&source=images&cd=vfe&opi=89978449&ved=0CBQQjRxqFwoTCOjO8pTpuokDFQAAAAAdAAAAABAE
배반사건(상호베타적)과 독립사건(상호독립적)
출처 : https://www.google.com/url?sa=i&url=https%3A%2F%2Fminukiki.github.io%2Fai%2FAIStudy3%2F&psig=AOvVaw2_juLAfZjlFXbQOH0i4Zgr&ust=1730539932092000&source=images&cd=vfe&opi=89978449&ved=0CBQQjRxqFwoTCLCd2-TpuokDFQAAAAAdAAAAABAE
베이즈 정리
출처 : https://www.google.com/url?sa=i&url=https%3A%2F%2Fm.blog.naver.com%2FPostView.naver%3FblogId%3Dmykepzzang%26logNo%3D220834940797%26categoryNo%3D38%26proxyReferer%3D%26noTrackingCode%3Dtrue&psig=AOvVaw2zb7WeWrmqdZn1LV2ETtKS&ust=1730540041888000&source=images&cd=vfe&opi=89978449&ved=0CBQQjRxqFwoTCLCgspvquokDFQAAAAAdAAAAABAJ
목차로 올라가기▶
이산확률분포, 연속확률분포, 기댓값(평균)과 분산
이산확률분포(확률변수가 정수의 값)
이항분포 : 주어진 횟수의 시행 중에서 사건횟수에 적용되는 분포(서로 독립인 사건 - 복원추출), 베르누이 시행을 n번 반복하는 경우 성공한 횟수의 분포(베르누이시행은 앞면or뒷면). 평균 E(X)=np, Var(X) = npq, (q=1-p).
포아송분포 : 단위 시간당 또는 단위 공간당 사건발생 횟수에 적용되는 분포. 일어날 확률이 아주 작은 경우에 적용한다. 예를 들어 어느 집에 한 시간 동안 걸려오는 전화통화수, 하룻동안 정전되는 횟수 등과 같이 희귀한 사건의 수를 확률변수로 할 때이다. 이 분포는 독립성, 비집락성, 비례성이라는 가정을 만족해야 한다. 평균 m, 분산 m. ★
초기하분포 : 서로 종속인 사건(비복원추출)이면서 모집단의 크기가 작을 때 적용되는 분포이다. 모집단의 크기가 크면 이항분포로 접근한다.
기하분포 : 단 한 번의 성공을 위해 실패를 거듭해야 하는 경우 기하분포를 이용한다.
음이항분포 : 성공확률이 p인 베르누이 시행에서 독립적으로 반복 시행할 때 k번 성공하기까지의 시행횟수 x의 확률분포이다.
출처 : https://www.google.com/url?sa=i&url=https%3A%2F%2Frfriend.tistory.com%2F101&psig=AOvVaw0_HXzvUAOTCXdiTOQGLLTG&ust=1730540855257000&source=images&cd=vfe&opi=89978449&ved=0CBQQjRxqFwoTCOiEq5rtuokDFQAAAAAdAAAAABAE
연속확률분포(확률변수가 실수의 값)
정규분포 : 가우스 분포라고도 한다. 가장 많이 사용된다. 표본을 통한 통계적 측정 및 가설검정이론의 기본이 된다. 모양과 위치는 분포의 평균과 표준편차로 결정된다. 평균을 중심으로 대칭적 종모양이다.
표준정규분포(z분포) : 정규분포의 표준화된 형태이다. 평균이 0, 표준편차가 1이 되도록 하는 것이 표준화이다. 평균을 중심으로 대칭적 종모양이다.
F분포 : F분포의 모양은 자유도 (n1-1) 과 (n2-1)에 따라서 결정된다. 두 모분산을 비교하는 데 사용할 뿐만 아니라 분산분석과 회귀분석을 위해서도 사용된다. 두 분산의 비율이며 카이제곱의 비율이다. 분산이 동일하면 F=1 이다.
t분포 : 모집단이 정규분포를 따르지만 모표준편차를 알 수 없을 뿐만 아니라 표본크기가 30개를 넘지 못하는 경우 t분포를 따른다. t는 자유도 (n-1) 인 t분포를 따른다. 자유도에 따라 분포모양이 다른 여러가지 분포를 갖는다. 표본크기가 충분히 크면 결국 표준정규분포와 t분포는 같아진다. 평균을 중심으로 대칭적 종모양이다.
카이제곱분포 : 오른쪽으로 긴 꼬리를 갖는다. 항상 양수이다. 분산을 추정할 때 사용한다. 표본크기가 클 수록 정규분포에 근접한다.
이산확률변수의 기댓값(평균)과 분산
출처 : https://www.google.com/url?sa=i&url=https%3A%2F%2Fblog.naver.com%2Ffreewheel3%2F220847292476%3FviewType%3Dpc&psig=AOvVaw2p6mwGhDE7lG8Jg8IgXxna&ust=1730553867330000&source=images&cd=vfe&opi=89978449&ved=0CBQQjRxqFwoTCICh75Oeu4kDFQAAAAAdAAAAABAE
연속확률변수의 기댓값(평균)과 분산
출처 : https://www.google.com/url?sa=i&url=http%3A%2F%2Fmatrix.skku.ac.kr%2F2018-album%2FR-Sage-Stat-Lab-2.html&psig=AOvVaw1FoeShNd2Ef7Kzz2B5HaLw&ust=1730553934258000&source=images&cd=vfe&opi=89978449&ved=0CBQQjRxqFwoTCPDI7_idu4kDFQAAAAAdAAAAABAJ
기댓값(평균)과 분산의 성질
출처 : https://www.google.com/url?sa=i&url=https%3A%2F%2Fyujin-study-room.tistory.com%2Fentry%2F%25ED%258F%2589%25EA%25B7%25A0%25EA%25B3%25BC-%25EB%25B6%2584%25EC%2582%25B0%25EC%259D%2598-%25EC%2584%25B1%25EC%25A7%2588&psig=AOvVaw2u8CduLc1zYIkiyZNKkQcc&ust=1730554159441000&source=images&cd=vfe&opi=89978449&ved=0CBQQjRxqFwoTCOC04uWeu4kDFQAAAAAdAAAAABAE
목차로 올라가기▶
정규분포, 표준화, Z검정, 가설검정
정규분포 표준화 공식
출처 : https://www.google.com/url?sa=i&url=https%3A%2F%2Fdowner-seong.tistory.com%2F5&psig=AOvVaw0xOXq-TFqUwrh5N_JLYs_I&ust=1730554319658000&source=images&cd=vfe&opi=89978449&ved=0CBQQjRxqFwoTCLixrLWfu4kDFQAAAAAdAAAAABAE
Z검정
출처 : https://www.google.com/url?sa=i&url=https%3A%2F%2Fvelog.io%2F%40wodus2854%2F%25ED%2586%25B5%25EA%25B3%2584-%25EB%25B6%2584%25EC%2584%259D-Z-Test&psig=AOvVaw2lNGSWd0BYjVoCcmxIZTkf&ust=1730555791582000&source=images&cd=vfe&opi=89978449&ved=0CBQQjRxqFwoTCIC7vfCku4kDFQAAAAAdAAAAABAE
오차의 개념
통계조사에서 오차는 참값과 추정값의 차이를 말한다.
오차에는 표본오차와 비표본오차가 있다. 표본오차는 모집단의 일부인 표본에서 얻은 자료를 통해 모집단 전체의 특성을 추론함으로써 생기는 오차를 말하며, 비표본오차는 표본오차를 제외한 조사의 전체과정에서 발생할 수 있는 모든 오차를 말한다.
표본의 크기가 증가하면 표본오차가 작아져 좀 더 정확한 추정값을 구할 수 있다.
표본오차는 표본조사의 경우에만 발생하지만, 비표본오차는 표본조사와 비표본조사 모두에서 존재한다. 비표본오차는 보통 면접방법이나 질문지 구성방식의 오류, 조사원의 자질, 조사표의 작성 또는 집계, 분석단계 등 조사의 전체과정에서 발생할 수 있다.
점추정 : 모수의 값이 얼마인지를 알아보는 것.
구간추정 : 모수를 포함할 것으로 기대되는 구간을 확률적으로 구하는 것.
신뢰수준 = (1-알파)
(알파는 오차율로써 신뢰구간이 모수를 포함하지 않을 확률임), 즉 신뢰수준은 신뢰구간이 모수를 포함할 확률임.
신뢰구간
출처 : https://www.google.com/url?sa=i&url=https%3A%2F%2Fbskyvision.com%2Fentry%2F%25EB%25AA%25A8%25ED%258F%2589%25EA%25B7%25A0%25EC%259D%2598-%25EC%258B%25A0%25EB%25A2%25B0%25EA%25B5%25AC%25EA%25B0%2584-%25EC%25B6%2594%25EC%25A0%2595%25ED%2595%2598%25EA%25B8%25B0&psig=AOvVaw3wi08-OIIjCJopa7TMI6vw&ust=1730555021656000&source=images&cd=vfe&opi=89978449&ved=0CBQQjRxqFwoTCPCQioaiu4kDFQAAAAAdAAAAABAE
가설검정
모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법이다.
가설검정절차는 검정하려고 하는 모집단에서 추출한 표본으로부터 계산한 검정통계랑의 수치가 유의수준 알파에 따라 결정되는 채택영역에 들어오면 그 귀무가설을 채택하게 된다. 만약 수치가 기각영역에 들어오면 귀무가설 H0를 기각하게 된다.
귀무가설(H0)
모집단의 특성에 대해 옳다고 제안하는 잠정인 주장 또는 명제를 말한다.
과거의 경험, 지식, 연구의 결과 등 현재까지 인정되어 온 것을 말한다.
대립가설(H1)
귀무가설의 주장이 틀렸다고 제안하는 가설로서 귀무가설이 기각되면 채택하게 되는 가설이다.
대립가설은 연구자가 기존상태로부터 새로운 변화 또는 효과가 존재한다는 주장을 나타내므로 연구자는 귀무가설을 부정하고 대립가설을 지지하고자 한다.
검정의 오류 ★★
통계적 결정 \ 실제 상황
H0 사실
H0 허위
H0 채택
옳은 결정 = 신뢰수준 = 1-알파
제2종오류 = 확률 베타 귀무가설이 허위여서 거절해야 하지만 채택함.
H0 기각
제1종오류 = 확률 알파 실제로는 사실이지만 표본오차때문에 귀무가설을 기각함.
옳은 결정 = 검정력 = 1-베타
잔차의 정규성 검토
Q-Q Plot 은 정규성 검토 방법이 될 수는 있으나 절대적인 기준은 아니다.
잔차의 히스토그램이나 점도표를 통해 정규성 문제를 검토한다.
샤피로윌크, 앤더슨달링은 정규성 검토방법이다.
정규성을 만족하지 못할 때 변수 변환을 통해 해결방안을 고려해 볼 수 있다.
목차로 올라가기▶
참고자료 : ADsP한권으로끝내기(김계철 지음)
<함께보면 좋은 글>
ADsP(데이터분석 준전문가) 자격 안내, 시험 일정, 공부 방법
이 글의 요약ADsP(데이터분석 준전문가) 란 데이터 이해에 대한 기본지식을 바탕으로 데이터분석 기획 및 데이터분석 등의 직무를 수행하는 실무자이다.시험과목은 데이터 이해, 데이터분석 기
jomosi.tistory.com
ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부
이 글의 요약데이터, 정보, 지식을 통해 최종적으로 지혜를 얻어내는 과정을 피라미드 형태로 나타낸 것이 DIKW 피라미드이다. 예시로는 데이터(Data)는 A마트의 연필 가격은 100원, B마트의 연필 가
jomosi.tistory.com
ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부 - 빅데이터, 개인정보, 데이터 3법
이 글의 요약빅데이터는 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 변화를 의미함. 빅데이터 시대의 위기 요인에는 사생활 침해,
jomosi.tistory.com
ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부 - 데이터 사이언티스트, ETL, 하둡
이 글의 요약데이터 사이언티스트가 갖춰야 할 역량(가트너) 4가지는 데이터 관리(데이터에 대한 이해), 분석 모델링(분석론에 대한 지식), 비즈니스 분석(비즈니스 요소에 초점), 소프트 기능(커
jomosi.tistory.com
ADsP(데이터분석 준전문가) 2과목 데이터 분석 기획 시험 요약 공부 - 분석 주제 유형, KDD분석방법
이 글의 요약분석 방법론의 구성 요소 4가지 : 상세한 절차(Procedure), 방법(Methods), 도구와 기법(Tools & Techniques), 템플릿과 산출물(Templates & Outputs) KDD(Knowledge Discovery in Database)는 1996년 Fayyad가 체계적
jomosi.tistory.com
ADsP(데이터분석 준전문가) 2과목 데이터 분석 기획 시험 요약 공부 - 애자일모델, 워터폴모델, 분
이 글의 요약 상향식 접근 방식 이란 문제의 정의 자체가 어려울 경우 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 이를 지속적으로 개선하는 방식이다. - Diverse(발산), 애자일 모
jomosi.tistory.com
ADsP(데이터분석 준전문가) 2과목 데이터 분석 기획 시험 요약 공부 - 분석 마스터플랜, 분석 거버
이 글의 요약반복적인 분석 체계는 모든 단계를 반복하기보다 데이터 수집 및 확보와 분석 데이터를 준비하는 단계를 순차적으로 진행하고, 모델링 단계는 반복적으로 수행하는 혼합형을 많이
jomosi.tistory.com
ADsP(데이터분석 준전문가) 3과목 R기초와 데이터마트 시험 요약 공부 - R기초,벡터,상자그림,이상
이 글의 요약산점도에서 상관계수가 0이라는 것은 두 변수 사이에 직선관계가 약한 것을 의미하는 것이지 아무 관계가 없다는 의미가 아니다. 이상값은 무조건 제거하고 분석한다는 것은 오답
jomosi.tistory.com
ENA, ENA PLAY, ENA DRAMA 편성표 및 채널번호
ENA 채널은 Entertainment DNA 의 약자로 KT 그룹 계열사인 skyTV(스카이라이프) 가 운영하는 채널입니다. ENA 외에 ENA PLAY, ENA DRAMA, ENA STORY 등 다양한 채널을 주제에 맞게 방영하고 있으며 최근에는 오은
jomosi.tistory.com
트위터 아이디 찾기
이 글의 요약 회원가입을 한 후에 이메일을 입력한 후 "이미 등록된 이메일입니다." 라는 문구가 뜨면 해당 이메일 주소로 트위터 아이디 찾기 새로운 이메일로 회원가입을 한 후에 @twittersupport
jomosi.tistory.com
알바천국 이력서 양식 다운
▼아르바이트 이력서 양식 다운로드(doc 파일, hwp 파일)▼ 아래에서 자세히 확인하세요▼ 알바천국, 알바몬, 사람인, 잡코리아 등 인력 채용 플랫폼이 경쟁하며 시장에서 활발하게 활동하고 있습
jomosi.tistory.com