이 글의 요약
- 분석 방법론의 구성 요소 4가지 : 상세한 절차(Procedure), 방법(Methods), 도구와 기법(Tools & Techniques), 템플릿과 산출물(Templates & Outputs)
- KDD(Knowledge Discovery in Database)는 1996년 Fayyad가 체계적으로 정리한 데이터마이닝 프로세스이다.
- CRISP-DM(Cross Industry Standard Process For Data Mining)은 1996년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작한 데이터마이닝 프로세스이다.
목차
분석 주제 유형, 구성 요소 및 분석모형 프로세스
분석 주제 유형
분석의 대상(What) | |||
Known | Un-Known | ||
분석의 방법(How) | Known | 최적화(Optimization) | 통찰(Insight) |
Un-Known | 솔루션(Solution) | 발견(Discovery) |
기업의 합리적 의사결정 장애 요소 3가지
- 고정관념
- 편향된 생각
- 프레이밍 효과(Framing Effect)
프레이밍 효과(Framing Effect) 란 문제의 표현 방식에 따라 같은 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상이다.
분석 방법론의 구성 요소 4가지
- 상세한 절차(Procedure)
- 방법(Methods)
- 도구와 기법(Tools & Techniques)
- 템플릿과 산출물(Templates & Outputs)
분석모형 프로세스
폭포수 모델(Waterfall) | 프로토타입 모델(Prototype) | 나선형 모델(Spiral) | |
방법 | Top-down | 프로토타입 | 점진적 |
특징 | 순차적 접근 | 프로토타입 개발 | 위험분석, 반복개발 |
장점 | 이해가 용이 관리가 편함 |
일단 시도함 요구분석 용이 개발 타당성 검증 가능 |
위험성 감소 변경에 유연한 대처 처음 시도하는 프로젝트에 용이 대규모 시스템 소프트웨어 개발에 적합 |
단점 | 전반부 요구분석 어려움 | 프로토타입 폐기에 따른 비용 증가 | 단계 반복에 따른 공정관리 어려움 |
반응형
KDD분석방법론, CRISP-DM분석방법론
KDD(Knowledge Discovery in Database)는 1996년 Fayyad가 체계적으로 정리한 데이터마이닝 프로세스이다.
CRISP-DM(Cross Industry Standard Process For Data Mining)은 1996년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작한 데이터마이닝 프로세스이다.
CRISP-DM 4레벨
- 단계(Phases) : 여러개의 단계, 상위 레벨
- 일반화 태스크(Generic Task) : 단일 프로세스 완전 수행 단위
- 세분화 태스크(Specialized Task) : 구체적 수행 레벨
- 프로세스 실행(Process Instances) : 데이터마이닝 실행(구체적인 실행 포함)
KDD분석방법론, CRISP-DM분석방법론 비교
KDD 분석 방법론 | CRISP-DM 분석방법론 | ||
프로세스 순서(단계) | 내용 | 프로세스 순서(단계) | 내용 |
분석 대상 비즈니스 이해 | 업무 이해 | 문제 정의 업무 목적 파악 상황 파악 목표 설정 계획 수립 |
|
데이터셋 선택 | 프로젝트 목표 설정 목표 데이터 선택 |
데이터 이해 | 인사이트 발견 초기 데이터 수집 데이터 기술 분석 데이터 탐색 데이터 품질 확인 |
★데이터 전처리 ★ | 잡음, 이상값, 결측치 식별, 제거 데이터셋 선택 프로세스 반복 |
||
데이터 변환 | 변수 선택 또는 차원 축소 등 | 데이터 준비 | 분석용 데이터셋 선택 ★ 데이터 정제 ★ 데이터 통합 데이터 포맷팅 |
데이터 마이닝 | 알고리즘 선택 데이터 분류 또는 예측 마이닝 |
★ 모델링 ★ | 과적합 등 대응방안 마련 모델링 기법 선택 모델 테스트 계획 설계 모델 작성 모델 평가 |
데이터 마이닝 결과 평가 | 해석과 평가 다시 처음부터 반복 |
평가 | 분석 결과 평가 모델링 과정 평가 모델 적용성 평가 |
데이터 마이닝 활용 | 전개 | 전개 계획 수립 모니터링과 모델링 유지보수 계획 수립 프로젝트 종료 보고서 작성 프로젝트 리뷰 |
빅데이터 분석방법론
빅데이터 분석방법론
단계 (Phase) |
분석 기획 | 데이터 준비 | 데이터 분석 | 시스템 구현 | 평가 및 전개 |
태스크 (Task) |
비즈니스 이해 프로젝트 범위 설정 - step (프로젝트 범위 정의서 SOW 작성) |
필요 데이터 정의 (데이터 정의서 작성) |
분석용 데이터 분석 (분석에 필요한 정형, 비정형데이터 추출) |
설계 및 구현 (설계서를 바탕으로 패키지를 활용하여 프로그램 구축) |
모델발전 계획수립 (지속적인 운영과 기능 향상을 위한 발전 계획 상세 수립) |
프로젝트 정의 및 계획 수립 (프로젝트 수행 계획서 WBS 작성) - 업무분장 |
데이터 스토어 설계 - 정형 데이터 스토어 설계 - 비정형 데이터 스토어 설 (하둡, NoSQL 등을 이용) |
텍스트 분석 (감성분석, 토픽분석, 오피니언분석, 소셜네트워크분석 등을 실시하여 적절한 모델 구축) |
시스템 테스트 및 운영 (시스템의 검증을 위해 단위테스트, 통합테스트, 시스템 테스트 등을 실시) |
프로젝트 평가 보고 (성과 정량, 정성 평가, 최종보고서 작성) |
|
프로젝트 위험계획 수립 위험 대응 방법 : 회피(avoid) , 전이(transfer) , 완화(mitigation) , 수용(acceptance) 리스크는 제거하는 것이 아니라 일정 수준 이하로 낮추는 것 |
데이터 수집 및 정합성 점검 (크롤링, ETL 등으로 데이터 수집하여 스토어에 저장) |
★ 탐색적 분석 ★ (다양한 관점별로 기초 통계량을 산출하고 데이터의 분포와 변수 간의 관계 등 데이터특성 및 데이터의 통계적 특성을 이해하고 모델링을 위한 기초 자료로 활용) |
|||
모델링 (데이터 분할, 데이터 모델링, 모델 적용 및 운영 방안) 필요 시 의사코드 작성(일반적인 언어로 쓴 코드) |
|||||
모델평가 및 검증 (모델 평가 프로세스) |
참고자료 : ADsP한권으로끝내기(김계철 지음)
<함께보면 좋은 글>
반응형
'각종꿀팁 > IT 자격증' 카테고리의 다른 글
ADsP(데이터분석 준전문가) 2과목 데이터 분석 기획 시험 요약 공부 - 분석 마스터플랜, 분석 거버넌스, 분석업무 수행 주체, 분석 과제 관리 프로세스 (0) | 2024.11.01 |
---|---|
ADsP(데이터분석 준전문가) 2과목 데이터 분석 기획 시험 요약 공부 - 애자일모델, 워터폴모델, 분석과제정의서, 분석프로젝트관리방안 (0) | 2024.10.31 |
ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부 - 데이터 사이언티스트, ETL, 하둡 (0) | 2024.10.29 |
ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부 - 빅데이터, 개인정보, 데이터 3법 (0) | 2024.10.28 |
ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부 (0) | 2024.10.27 |