전체 글 217

ADsP(데이터분석 준전문가) 3과목 통계분석 시험 요약 공부 - 회귀분석,다중공선성,선형회귀모형,다중선형회귀모형분산분석표,단계적변수선택

이 글의 요약독립변수(설명변수)가 종속변수(반응변수)에 미치는 영향력을 분석하거나, 독립변수에 따라 종속변수의 변화를 예측하기 위해서 사용하는 통계기법이다.회귀분석모형은 선형성, 독립성, 등분산성, 비상관성, 정규성을 기본 가정으로 한다. 회귀분석모형의 결정계수의 값이 1에 근접할수록 회귀선의 추정치를 잘 반영하고 있다고 볼 수 있다. 릿지는 L2-norm 정규화이고, 라쏘는 L2-norm 정규화라고 한다. 전진선택법 : 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가한다. 한 번 추가된 변수는 제거할 수 없다. 후진제거법 : 독립변수 후보를 모두 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 유의하지 않는 변수가 없을 때까지 한다. 한 번 ..

ADsP(데이터분석 준전문가) 3과목 통계분석 시험 요약 공부 - 상관분석,다차원척도법,주성분분석,시계열예측,정상성,시계열모형,분해시계열

이 글의 요약피어슨상관계수는 0에 가까울수록 상관관계가 약한 것을 의미하고 +1에 가까울수록 강한 상관관계가 있다.공분산이 0이라면 두 변수간에는 아무런 선형관계가 없음을 의미한다.시계열의 평균이 일정하지 않을 때는 원시계열에 차분(현재 시점에서 바로 전 시점의 자료 값을 빼는 것)계절성을 갖는 비정상 시계열은 정상 시계열로 변환할 때 계절차분을 사용일반적으로 자기회귀모형은 자기상관함수(ACF)가 시차가 증가함에 따라 점차적으로 감소하고, 부분자기상관함수(PACF)는 p+1 시차 이후 급격히 감소하여 절단된 형태를 취한다. 아래에서 자세히 확인하세요▼   목차상관분석, 다차원척도법, 주성분분석시계열 예측, 정상성시계열 모형, 분해시계열상관분석, 다차원척도법, 주성분분석상관분석은 데이터 안의 두 변수 간의..

ADsP(데이터분석 준전문가) 3과목 통계분석 시험 요약 공부 - 표본추출방법,자료의종류,척도,조건부확률,베이즈정리,이산확률분포,연속확률분포,기댓값(평균)과 분산,정규분포,표준화,Z검정,가설검정

이 글의 요약등간척도(양적척도=양적자료) : 순위를 부여하되 순위 사이의 간격이 동일하여 양적인 비교가 가능하다. 단, 절대 0점이 존재하지 않는다(예시 : 온도계 수치, 물가지수, 리커트 척도 등).포아송분포 : 단위 시간당 또는 단위 공간당 사건발생 횟수에 적용되는 분포. 일어날 확률이 아주 작은 경우에 적용한다. 예를 들어 어느 집에 한 시간 동안 걸려오는 전화통화수, 하룻동안 정전되는 횟수 등과 같이 희귀한 사건의 수를 확률변수로 할 때이다. 이 분포는 독립성, 비집락성, 비례성이라는 가정을 만족해야 한다. 평균 m, 분산 m. ★가설검정절차는 검정하려고 하는 모집단에서 추출한 표본으로부터 계산한 검정통계랑의 수치가 유의수준 알파에 따라 결정되는 채택영역에 들어오면 그 귀무가설을 채택하게 된다. ..

ADsP(데이터분석 준전문가) 3과목 R기초와 데이터마트 시험 요약 공부 - R기초,벡터,상자그림,이상값,결측값,reshape패키지,plyr패키지,sqldf패키지

이 글의 요약산점도에서 상관계수가 0이라는 것은 두 변수 사이에 직선관계가 약한 것을 의미하는 것이지 아무 관계가 없다는 의미가 아니다. 이상값은 무조건 제거하고 분석한다는 것은 오답이다. 결측값(Missing Value)이란 데이터 수집 과정에서 측정되지 않거나 누락된 데이터를 말한다. plyr 함수 중 입력데이터는 리스트이고, 출력데이터는 데이터프레임인 plyr인 함수는 ? = ldply 아래에서 자세히 확인하세요▼   목차R기초, 벡터, 상자그림, 이상값결측값, 결측값의 대치법reshape패키지, plyr패키지, sqldf패키지R기초, 벡터, 상자그림, 이상값 R에서 벡터는 하나 또는 하나 이상의 스칼라 원소들을 갖는 집합이다.합치는 벡터에 수치형과 문자형이 결합하면 문자형이 우선한다.논리연산자 ..

ADsP(데이터분석 준전문가) 2과목 데이터 분석 기획 시험 요약 공부 - 분석 마스터플랜, 분석 거버넌스, 분석업무 수행 주체, 분석 과제 관리 프로세스

이 글의 요약반복적인 분석 체계는 모든 단계를 반복하기보다 데이터 수집 및 확보와 분석 데이터를 준비하는 단계를 순차적으로 진행하고, 모델링 단계는 반복적으로 수행하는 혼합형을 많이 적용한다. 데이터 거버넌스의 3가지 구성 요소는 원칙, 조직, 절차이다. 데이터 거버넌스 4가지 체계 요소는 데이터 표준화, 데이터 관리 체계, 데이터 저장소 관리, 표준화 활동이다. 아래에서 자세히 확인하세요▼   목차분석 마스터플랜분석 거버넌스분석업무 수행 주체, 분석 과제 관리 프로세스분석 마스터플랜분석 마스터플랜은 분석 대상이 되는 과제를 도출하고 우선순위를 평가하여 단기적인 세부 이행계획과 중장기적인 로드뱁을 작성하는 것이다.분석 로드맵의 과제들이 잘 수행되도록 하기 위해서는 분석 거버넌스 체계 수립이 필요하고 분석..

ADsP(데이터분석 준전문가) 2과목 데이터 분석 기획 시험 요약 공부 - 애자일모델, 워터폴모델, 분석과제정의서, 분석프로젝트관리방안

이 글의 요약 상향식 접근 방식 이란 문제의 정의 자체가 어려울 경우 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 이를 지속적으로 개선하는 방식이다. - Diverse(발산), 애자일 모델하향식 접근 방식 이란 문제가 주어지고 에 대한 해답을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 방식이다. - Converse(수렴), 워터폴 모델 분석과제 정의서는 분석 모델에 적용될 알고리즘과 분석 모델의 기반이 되는 Feature가 포함될 필요가 없다. - 상세 분석 알고리즘이 포함될 필요가 없다(이건 분석 방법에서 한다). Accuracy는 모델과 실제 값 사이의 차이가 적다는 정확도를 의미하고, Precision(정밀도)은 모델을 지속적으로 반복했을 때의 편차와 수준으로서 일관적으로 동일..

ADsP(데이터분석 준전문가) 2과목 데이터 분석 기획 시험 요약 공부 - 분석 주제 유형, KDD분석방법론, CRISP-DM분석방법론, 빅데이터분석방법론

이 글의 요약분석 방법론의 구성 요소 4가지 : 상세한 절차(Procedure), 방법(Methods), 도구와 기법(Tools & Techniques), 템플릿과 산출물(Templates & Outputs) KDD(Knowledge Discovery in Database)는 1996년 Fayyad가 체계적으로 정리한 데이터마이닝 프로세스이다. CRISP-DM(Cross Industry Standard Process For Data Mining)은 1996년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작한 데이터마이닝 프로세스이다. 아래에서 자세히 확인하세요▼  목차분석 주제 유형, 구성 요소 및 분석모형 프로세스KDD분석방법론, CRISP-DM분석방법론빅데이터분석방법론분석 주제 유형, 구성 요소..

ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부 - 데이터 사이언티스트, ETL, 하둡

이 글의 요약데이터 사이언티스트가 갖춰야 할 역량(가트너) 4가지는 데이터 관리(데이터에 대한 이해), 분석 모델링(분석론에 대한 지식), 비즈니스 분석(비즈니스 요소에 초점), 소프트 기능(커뮤니케이션, 협력, 리더십, 창의력)이다. ETL은 데이터 이동과 변환 절차와 관련된 업계표준용어. 하둡은 하나의 성능 좋은 컴퓨터를 이용하여 데이터를 처리하는 대신, 적당한 성능의 범용 컴퓨터 여러 대를 클러스터화하고, 큰 크기의 데이터를 클러스터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 한다. 아래에서 자세히 확인하세요▼   목차데이터 사이언스, 데이터 마이닝, 통계학ETL(Extraction, Transformation and Load) 의 설명하둡, 하둡의 에코시스템데이터 사이언스, 데이..

ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부 - 빅데이터, 개인정보, 데이터 3법

이 글의 요약빅데이터는 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 변화를 의미함. 빅데이터 시대의 위기 요인에는 사생활 침해, 책임 원칙의 훼손, 데이터의 오용이 있다. 개인정보란 살아 있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아 볼 수 있는 정보이다.아래에서 자세히 확인하세요▼   목차빅데이터의 특징 및 활용빅데이터 열풍과 회의론, 위기 요인과 통제방안개인정보, 개인정보 식별요소 및 데이터 3법빅데이터의 특징 및 활용빅데이터의 특징3V 정의 : Volume(데이터의 크기), Variety(데이터의 다양성), Velocity(데이터의 속도)4V 정의 : Volume(데이터의 크기), Variety(데이터의 다양..

ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부

이 글의 요약데이터, 정보, 지식을 통해 최종적으로 지혜를 얻어내는 과정을 피라미드 형태로 나타낸 것이 DIKW 피라미드이다. 예시로는 데이터(Data)는 A마트의 연필 가격은 100원, B마트의 연필 가격은 200원이다. 정보(Information)는 A마트의 연필 가격이 더 싸다. 지식(Knowledge)은 상대적으로 저렴한 A마트에서 연필을 사야 겠다. 지혜(Wisdom)는 A마트의 다른 상품들도 B마트보다 저렴할 것으로 판단한다. 데이터베이스(DataBase)란 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합이다. 데이터베이스 관리시스템(DataBase Management System)이란 데이..