각종꿀팁/IT 자격증

ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부 - 데이터 사이언티스트, ETL, 하둡

금융원픽 2024. 10. 29. 00:30


이 글의 요약

  • 데이터 사이언티스트가 갖춰야 할 역량(가트너) 4가지는 데이터 관리(데이터에 대한 이해), 분석 모델링(분석론에 대한 지식), 비즈니스 분석(비즈니스 요소에 초점), 소프트 기능(커뮤니케이션, 협력, 리더십, 창의력)이다.
  • ETL은 데이터 이동과 변환 절차와 관련된 업계표준용어. 
  • 하둡은 하나의 성능 좋은 컴퓨터를 이용하여 데이터를 처리하는 대신, 적당한 성능의 범용 컴퓨터 여러 대를 클러스터화하고, 큰 크기의 데이터를 클러스터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 한다.

아래에서 자세히 확인하세요▼

 

ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부 - 데이터 사이언티스트, ETL, 하둡

 

 


목차


데이터 사이언스, 데이터 마이닝, 통계학

 

데이터 사이언스 데이터 마이닝 통계학
데이터로부터 의미 있는 정보를 추출하는 학문    
분석 뿐만 아니라 이를 효과적으로 구현하고 전달하는 과정까지 모두 포괄하는 개념 주로 분석에 초점을 둠  
정형 또는 비정형을 막론하고 다양한 유형의 데이터를 대상으로 총체적 접근법을 사용   정형화된 실험 데이터가 분석 대상
데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당 분야의 전문 지식을 종합한 학문    

 

데이터 사이언스의 3가지 핵심 구성 요소는 IT(Data Management), Analytics(분석적 영역), 비즈니스 분석이다.

데이터 사이언티스트가 갖춰야 할 역량(가트너) 4가지는 데이터 관리(데이터에 대한 이해), 분석 모델링(분석론에 대한 지식), 비즈니스 분석(비즈니스 요소에 초점), 소프트 기능(커뮤니케이션, 협력, 리더십, 창의력)이다.

 

데이터 사이언티스트의 요구 역량

Hard Skill Soft Skill
빅데이터에 대한 이론적 지식 : 관련 기법에 대한 이해와 방법론 습득 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판
분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적 설득력 있는 전달 : 스토리텔링, Visualization
  다분야 간 협력 : Communication

 

인문학의 부활 이유

1. 단순 세계화에서 복잡한 세계로의 변화

2. 비즈니스의 중심이 제품생산에서 서비스로 이동

3. 경제와 산업의 논리가 생산에서 시장 창조

 

가치 패러다임의 변화

1. 디지털화(Digitalization) : 아날로그의 세상을 어떻게 효과적으로 디지털화하는가가 이 시대의 가치를 창출해내는 원천.

2. 연결(Connection) : 디지털화된 정보와 대상들이 서로 연결되어, 이 연결이 얼마나 효과적이고 효율적으로 제공해 주느냐가 이 시대의 성패를 결정함.

3. 에이전시(Agency) : 사물인터넷(IoT)의 성숙과 함께 연결이 증가하고 복잡한 연결을 얼마나 효과적이고 믿을 만하게 관리하는가가 이슈. 데이터 사이언스의 역량에 따라 좌우됨.

 

자주 출제되는 기타 용어정리

데이터 레이크(Data Lake) : 대규모의 다양한 원시 데이터셋을 기본형식으로 저장하는 데이터 리포지토리 유형. 데이터 레이크에 있는 데이터는 분석을 위해 필요할 때 변환되며, 이러한 경우 스키마가 적용되어 데이터 분석이 가능해진다. 이는 "읽기 스키마(Schema on read)" 라고 불리고, 데이터가 사용 준비 상태가 될 때까지 원시 상태로 보관되기 때문.

서비타이제이션(Servitization) : 제품과 서비스의 결합, 서비스의 상품과 그리고 기존 서비스와 신규 서비스의 결합 협상을 포괄하는 개념.

딥러닝(Deep Learning) : 여러 층을 가진 인공신경망을 사용하고 머신러닝 학습을 수행하는 것으로 심층학습 기법 대표적 분석방법으로 LSTM, Autoencoder, RNN 등이 있음.

마이데이터 : 개인이 각종 기업과, 기관에 흩어져 있는 자신의 신용 정보를 마이데이터 사업자에게 활용하도록 하고, 이들 업체로부터 자신에게 유용한 맞춤형 서비스를 받는 것을 의미함.

 

SQL(Structure query Language) 기능 분류

  데이터 정의어(DDL) 데이터 조작어(DML) 데이터 제어어(DCL)
설명 스키마, 테이블, 뷰 등을 정의하거나 변경, 삭제할 때 사용하는 언어 데이터베이스 사용자가 저장된 데이터를 처리할 때 사용하는 언어 데이터의 보안, 무결성 등을 정의하는데 사용되는 언어
목적 데이터베이스 관리자 혹은 설계자가 사용함 데이터베이스 사용자가 관리시스템 간의 인터페이스를 제공함 데이터베이스 관리자가 데이터 관리를 목적으로 사용함
유형 CREATE, ALTER, DROP SELECT, INSERT, DELETE, UPDATE COMMIT, ROLLBACK, GRANT, REVOKE

 

목차로 올라가기▶

반응형

ETL(Extraction, Transformation and Load) 의 설명

ETL은 데이터 이동과 변환 절차와 관련된 업계표준용어.

ETL은 데이터웨어하우스(DW), 운영 데이터 스토어(ODS), 데이터 마트(DM)에 대한 데이터 적재 작업의 핵심 구성요소.

데이터 통합(Data Integration), 데이터 이동(Data Migration), 마스터 데이터 관리(MDM, Master Data Management)에 걸쳐 폭넓게 활용된다.

 

ETL은 데이터 이동과 변환을 주목적으로 하며 3가지 기능

  • Extraction(추출) : 하나 또는 그 이상의 데이터 원천들로부터 데이터 획득
  • Transformation(변형) : 데이터 클렌징, 형식 변환, 표준화, 통합 또는 다수 애플리케이션에 내장된 비즈니스 룰 적용
  • Loading(적재) : 위 변형 단계 처리가 완료된 데이터를 특정 목표 시스템에 적재

 

목차로 올라가기▶


하둡, 하둡의 에코시스템

하둡은 하나의 성능 좋은 컴퓨터를 이용하여 데이터를 처리하는 대신, 적당한 성능의 범용 컴퓨터 여러 대를 클러스터화하고, 큰 크기의 데이터를 클러스터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 한다.

하둡의 코어 프로젝트가 HDFS와 MapReduce이며 이외에도 다양한 서브프로젝트가 존재한다. 이러한 서브프로젝트들의 모임을 하둡의 에코시스템이라 한다.

HDFS(Hadoop Distrbuted File System) : 네트워크에 연결된 기기에 데이터를 저장하는 분산형 파일 시스템

MapReduce : 대용량 데이터 처리를 위한 분산 프로그래밍 모델로, 대규모 분산 컴퓨팅 환경에서 대량의 데이터를 병렬로 분석한다.

 

목차로 올라가기▶

참고자료 : ADsP한권으로끝내기(김계철 지음)


<함께보면 좋은 글>

 

ADsP(데이터분석 준전문가) 자격 안내, 시험 일정, 공부 방법

이 글의 요약ADsP(데이터분석 준전문가) 란 데이터 이해에 대한 기본지식을 바탕으로 데이터분석 기획 및 데이터분석 등의 직무를 수행하는 실무자이다.시험과목은 데이터 이해, 데이터분석 기

jomosi.tistory.com

 

ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부

이 글의 요약데이터, 정보, 지식을 통해 최종적으로 지혜를 얻어내는 과정을 피라미드 형태로 나타낸 것이 DIKW 피라미드이다. 예시로는 데이터(Data)는 A마트의 연필 가격은 100원, B마트의 연필 가

jomosi.tistory.com

 

ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부 - 빅데이터, 개인정보, 데이터 3법

이 글의 요약빅데이터는 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 변화를 의미함. 빅데이터 시대의 위기 요인에는 사생활 침해,

jomosi.tistory.com

 

ENA, ENA PLAY, ENA DRAMA 편성표 및 채널번호

ENA 채널은 Entertainment DNA 의 약자로 KT 그룹 계열사인 skyTV(스카이라이프) 가 운영하는 채널입니다. ENA 외에 ENA PLAY, ENA DRAMA, ENA STORY 등 다양한 채널을 주제에 맞게 방영하고 있으며 최근에는 오은

jomosi.tistory.com

 

114114구인구직 사이트 바로가기 - www.114114.com

이 글의 요약 114114구인구직 사이트는 지역별 구인정보, 구직정보, 중고시장, 부동산정보를 얻을 수 있는 유용한 사이트 입니다. 114114구인구직 사이트는 로그인 없이 이용이 가능하기 때문에 간

jomosi.tistory.com

 

트위터 아이디 찾기

이 글의 요약 회원가입을 한 후에 이메일을 입력한 후 "이미 등록된 이메일입니다." 라는 문구가 뜨면 해당 이메일 주소로 트위터 아이디 찾기 새로운 이메일로 회원가입을 한 후에 @twittersupport

jomosi.tistory.com

 

반응형