이 글의 요약
- 데이터 사이언티스트가 갖춰야 할 역량(가트너) 4가지는 데이터 관리(데이터에 대한 이해), 분석 모델링(분석론에 대한 지식), 비즈니스 분석(비즈니스 요소에 초점), 소프트 기능(커뮤니케이션, 협력, 리더십, 창의력)이다.
- ETL은 데이터 이동과 변환 절차와 관련된 업계표준용어.
- 하둡은 하나의 성능 좋은 컴퓨터를 이용하여 데이터를 처리하는 대신, 적당한 성능의 범용 컴퓨터 여러 대를 클러스터화하고, 큰 크기의 데이터를 클러스터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 한다.
목차
데이터 사이언스, 데이터 마이닝, 통계학
데이터 사이언스 | 데이터 마이닝 | 통계학 |
데이터로부터 의미 있는 정보를 추출하는 학문 | ||
분석 뿐만 아니라 이를 효과적으로 구현하고 전달하는 과정까지 모두 포괄하는 개념 | 주로 분석에 초점을 둠 | |
정형 또는 비정형을 막론하고 다양한 유형의 데이터를 대상으로 총체적 접근법을 사용 | 정형화된 실험 데이터가 분석 대상 | |
데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당 분야의 전문 지식을 종합한 학문 |
데이터 사이언스의 3가지 핵심 구성 요소는 IT(Data Management), Analytics(분석적 영역), 비즈니스 분석이다.
데이터 사이언티스트가 갖춰야 할 역량(가트너) 4가지는 데이터 관리(데이터에 대한 이해), 분석 모델링(분석론에 대한 지식), 비즈니스 분석(비즈니스 요소에 초점), 소프트 기능(커뮤니케이션, 협력, 리더십, 창의력)이다.
데이터 사이언티스트의 요구 역량
Hard Skill | Soft Skill |
빅데이터에 대한 이론적 지식 : 관련 기법에 대한 이해와 방법론 습득 | 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판 |
분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적 | 설득력 있는 전달 : 스토리텔링, Visualization |
다분야 간 협력 : Communication |
인문학의 부활 이유
1. 단순 세계화에서 복잡한 세계로의 변화
2. 비즈니스의 중심이 제품생산에서 서비스로 이동
3. 경제와 산업의 논리가 생산에서 시장 창조
가치 패러다임의 변화
1. 디지털화(Digitalization) : 아날로그의 세상을 어떻게 효과적으로 디지털화하는가가 이 시대의 가치를 창출해내는 원천.
2. 연결(Connection) : 디지털화된 정보와 대상들이 서로 연결되어, 이 연결이 얼마나 효과적이고 효율적으로 제공해 주느냐가 이 시대의 성패를 결정함.
3. 에이전시(Agency) : 사물인터넷(IoT)의 성숙과 함께 연결이 증가하고 복잡한 연결을 얼마나 효과적이고 믿을 만하게 관리하는가가 이슈. 데이터 사이언스의 역량에 따라 좌우됨.
자주 출제되는 기타 용어정리
데이터 레이크(Data Lake) : 대규모의 다양한 원시 데이터셋을 기본형식으로 저장하는 데이터 리포지토리 유형. 데이터 레이크에 있는 데이터는 분석을 위해 필요할 때 변환되며, 이러한 경우 스키마가 적용되어 데이터 분석이 가능해진다. 이는 "읽기 스키마(Schema on read)" 라고 불리고, 데이터가 사용 준비 상태가 될 때까지 원시 상태로 보관되기 때문.
서비타이제이션(Servitization) : 제품과 서비스의 결합, 서비스의 상품과 그리고 기존 서비스와 신규 서비스의 결합 협상을 포괄하는 개념.
딥러닝(Deep Learning) : 여러 층을 가진 인공신경망을 사용하고 머신러닝 학습을 수행하는 것으로 심층학습 기법 대표적 분석방법으로 LSTM, Autoencoder, RNN 등이 있음.
마이데이터 : 개인이 각종 기업과, 기관에 흩어져 있는 자신의 신용 정보를 마이데이터 사업자에게 활용하도록 하고, 이들 업체로부터 자신에게 유용한 맞춤형 서비스를 받는 것을 의미함.
SQL(Structure query Language) 기능 분류
데이터 정의어(DDL) | 데이터 조작어(DML) | 데이터 제어어(DCL) | |
설명 | 스키마, 테이블, 뷰 등을 정의하거나 변경, 삭제할 때 사용하는 언어 | 데이터베이스 사용자가 저장된 데이터를 처리할 때 사용하는 언어 | 데이터의 보안, 무결성 등을 정의하는데 사용되는 언어 |
목적 | 데이터베이스 관리자 혹은 설계자가 사용함 | 데이터베이스 사용자가 관리시스템 간의 인터페이스를 제공함 | 데이터베이스 관리자가 데이터 관리를 목적으로 사용함 |
유형 | CREATE, ALTER, DROP | SELECT, INSERT, DELETE, UPDATE | COMMIT, ROLLBACK, GRANT, REVOKE |
ETL(Extraction, Transformation and Load) 의 설명
ETL은 데이터 이동과 변환 절차와 관련된 업계표준용어.
ETL은 데이터웨어하우스(DW), 운영 데이터 스토어(ODS), 데이터 마트(DM)에 대한 데이터 적재 작업의 핵심 구성요소.
데이터 통합(Data Integration), 데이터 이동(Data Migration), 마스터 데이터 관리(MDM, Master Data Management)에 걸쳐 폭넓게 활용된다.
ETL은 데이터 이동과 변환을 주목적으로 하며 3가지 기능
- Extraction(추출) : 하나 또는 그 이상의 데이터 원천들로부터 데이터 획득
- Transformation(변형) : 데이터 클렌징, 형식 변환, 표준화, 통합 또는 다수 애플리케이션에 내장된 비즈니스 룰 적용
- Loading(적재) : 위 변형 단계 처리가 완료된 데이터를 특정 목표 시스템에 적재
하둡, 하둡의 에코시스템
하둡은 하나의 성능 좋은 컴퓨터를 이용하여 데이터를 처리하는 대신, 적당한 성능의 범용 컴퓨터 여러 대를 클러스터화하고, 큰 크기의 데이터를 클러스터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 한다.
하둡의 코어 프로젝트가 HDFS와 MapReduce이며 이외에도 다양한 서브프로젝트가 존재한다. 이러한 서브프로젝트들의 모임을 하둡의 에코시스템이라 한다.
HDFS(Hadoop Distrbuted File System) : 네트워크에 연결된 기기에 데이터를 저장하는 분산형 파일 시스템
MapReduce : 대용량 데이터 처리를 위한 분산 프로그래밍 모델로, 대규모 분산 컴퓨팅 환경에서 대량의 데이터를 병렬로 분석한다.
참고자료 : ADsP한권으로끝내기(김계철 지음)
<함께보면 좋은 글>
'각종꿀팁 > IT 자격증' 카테고리의 다른 글
ADsP(데이터분석 준전문가) 2과목 데이터 분석 기획 시험 요약 공부 - 애자일모델, 워터폴모델, 분석과제정의서, 분석프로젝트관리방안 (0) | 2024.10.31 |
---|---|
ADsP(데이터분석 준전문가) 2과목 데이터 분석 기획 시험 요약 공부 - 분석 주제 유형, KDD분석방법론, CRISP-DM분석방법론, 빅데이터분석방법론 (0) | 2024.10.30 |
ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부 - 빅데이터, 개인정보, 데이터 3법 (0) | 2024.10.28 |
ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부 (0) | 2024.10.27 |
ADsP(데이터분석 준전문가) 자격 안내, 시험 일정, 공부 방법 (0) | 2024.10.27 |