이 글의 요약
- 빅데이터는 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 변화를 의미함.
- 빅데이터 시대의 위기 요인에는 사생활 침해, 책임 원칙의 훼손, 데이터의 오용이 있다.
- 개인정보란 살아 있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아 볼 수 있는 정보이다.
목차
빅데이터의 특징 및 활용
빅데이터의 특징
3V 정의 : Volume(데이터의 크기), Variety(데이터의 다양성), Velocity(데이터의 속도)
4V 정의 : Volume(데이터의 크기), Variety(데이터의 다양성), Velocity(데이터의 속도) , Value(데이터의 가치)
빅데이터는 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 변화를 의미함.
빅데이터의 기능에는 산업혁명의 석탄, 철에 비유되고, 원유에 비유되고, 렌즈에 비유되고, 플랫폼에 비유된다.
빅데이터가 만들어 내는 본질적 변화는 정보의 사전처리에서 사후처리 시대로, 표본조사에서 전수조사로, 질보다 양으로, 인과관계에서 상관관계로의 변화이다.
빅데이터의 가치 산정이 어려운 이유는 데이터를 언제, 어디서, 누가 활용할지 모르기 때문이고, 기존에 없던 가치를 창출하기 때문이고, 분석 기술의 발달이 가치가 없는 데이터에 가치를 부여하기도 하기 때문이다.
빅데이터 활용에 필요한 3요소
데이터 | 모든 것의 데이터화(Datafication) |
기술 | 진화하는 알고리즘, 인공지능 |
인력 | 데이터사이언티스트, 알고리즈미스트 |
빅데이터의 활용 사례
빅데이터의 기업 활용 대표 사례에는 구글 검색(로그 데이터 활용 기존 페이지랭크 개선), 월마트 구매 패턴 분석(연관규칙), IBM 왓슨 인공지능 병원 진료에 활용 등이다.
빅데이터의 정부 활용 대표 사례는 환경탐색(실시간 교통정보수집, 기후정보), 상황분석(소셜미디어, CCTV, 통화기록) 등이다.
빅데이터의 개인 활용 대표 사례는 정치인의 SNA활용, 가수 팬들의 청취 분석 등이다.
빅데이터 활용 기법
설명 | 예시 | |
연관규칙학습 (Association rule learning) |
어떤 변수 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법 | 마트에서 상관관계가 높은 상품을 함께 진열(우유와 기저귀) |
유형 분석 (Classification tree analysis) |
사용자가 어떤 특성을 가진 집단에 속하는가와 같은 문제를 해결하고자 할 때 사용 | 온라인 수강생들의 특성에 따라 분류 |
유전 알고리즘 (Genetic agorithms) |
최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가와 같은 최적화의 메커니즘을 찾아내는 방법 | 연료 효율적인 차를 개발하기 위해 어떻게 원자재와 엔지니어링을 결합해야 하는가? 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가? |
기계 학습 (Machine learning) |
기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어 할까? 와 같은 문제를 해결할 때 사용. 기계학습 알고리즘은 훈련 데이터를 기반으로 모형을 만들고 그 모형을 이용하여 예측하거나 의사결정에 활용할 수 있도록 함. |
넷플릭스 영화추천 시스템 |
회귀분석 (Regression Analysis) |
구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? 와 같은 질문에 답할 때 사용한다. 분석자는 독립변수를 사용하여, 종속변수가 어떻게 변하는지를 보며 두 변수의 관계를 파악한다. |
|
감성분석 (Sentiment Analysis) |
새로운 환불 정책에 대한 고객의 평가는 어떤가? 를 알고 싶을 때 활용 | 소셜미디어에 나타난 의견을 바탕으로 고객이 원하는 것을 찾아낼 때 사용된다. |
소셜 네트워크 분석 (Social network analysis) |
영향력 있는 사람을 찾아낼 수 있으면 고객들 간 소셜커머스 관계를 파악할 수 있음. |
빅데이터 열풍과 회의론, 위기 요인과 통제방안
빅데이터 열풍과 회의론
빅데이터 분석은 데이터에서 가치, 통찰을 끌어내는 것이 성과를 창출하는 것의 관건임. | 복잡하고 다양한 데이터 최적화 능력이 반드시 최고의 가치를 창출하는 것이 아니고, 가치에 적합한 분석을 하는 것이 중요 포인트임. |
데이터는 크기의 이슈가 아니라 어떤 가치, 통찰을 얻을수 있냐의 문제이다. 빅데이터의 관련된 걸림돌은 비용이 아니라 분석적 방법과 성과에 대한 이해 부족이다. |
|
성과가 높은 기업일수록 데이터 기반에 의한 의사결정을 하지만 성과가 우수한 기업들도 가치 분석적 통찰력을 갖췄다고 대답한 비율이 낮다. | 기업의 핵심가치와 관련한 전략적 통찰력을 가져다주는 데이터 분석을 내재화하는 것은 쉬운 일이 아님을 의미한다. |
데이터의 일차적인 분석 vs 전략 도출을 위한 가치 기반 분석
일차적인 분석 | 전략 도출을 위한 가치 기반 분석 |
일차적인 분석을 통해서도 해당 부서는 업무영역 효과를 얻을 수 있지만, 일차적인 분석은 태생적으로 업계 내부의 문제에만 초점을 두고 있음. | 전략적 인사이트 가치 기반 분석을 위해서 인구통계학적 변화, 경제 사회 트렌드, 고객 니즈의 변화를 고려해야함. |
즉 업계 상황에 한정해서 바라보지 말고 더 넓은 시야에서 차별화를 고려해야 한다. | |
데이터 분석은 대상을 모델 범위 외 요인들을 판단하게 되면 분석 모델의 정확성에 위험을 동반할 수 있음에 유의해야함. |
빅데이터 시대의 위기 요인과 통제방안
위기 요인 | 통제방안 | |
사생활 침해 | 빅데이터 시대가 본격화되면서 우리를 둘러싼 정보 수집 센서(M2M)들의 수가 점점 늘어나고 있고, 특정 데이터의 본래 목적 외에 가공돼 2차, 3차적 목적으로 활용될 가능성이 증가하면서 사생활 침해를 넘어 사회, 경제적 위협으로 변형될 수 있음. | 동의에서 책임으로(개인정보 사용자가 책임). 개인정보의 활용에 대한 개인이 매번 동의하는 것은 경제적으로도 매우 비효율적이다. 따라서 사생활 침해 문제를 개인정보 제공자의 동의를 통해 해결하기 보다는 개인정보 사용자에게 책임을 지움으로써 개인정보 사용 주체가 더욱 적극적인 보호 장치를 마련하게 하는 효과가 발생할 것으로 기대된다. |
책임 원칙의 훼손 | 빅데이터 기반분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성이 증가한다. 그러나 잠재적 위험 사항에 대해서도 책임을 추궁하는 사회로 변질될 가능성이 커 민주주의 사회 원칙을 크게 훼손할 수 있다. 예시 : 범죄예측 프로그램(영화 마이너리티 리포트) |
기존의 책임원칙을 더 보강하고 강화한다. |
데이터의 오용 | 빅데이터는 일어난 일에 대한 데이터에 의존한다. 그것을 바탕으로 미래를 예측하는 것은 적지 않은 정확도를 가질 수 있지만, 항상 맞을 수는 없다. 주어진 데이터에 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러올 수 있다. | 데이터 알고리즘에 대한 접근권 허용 및 객관적 인증방안을 도입 필요성 제기. 이로 인해 알고리즈미스트 역할이 요구된다. |
개인정보, 개인정보 식별요소 및 데이터 3법
개인정보란 살아 있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아 볼 수 있는 정보이다.
개인정보 비식별화는 정보의 일부 또는 전부를 삭제 또는 대체하거나 다른 정보와 쉽게 결합하지 못하도록 하여 특정 개인을 알아볼 수 없도록 하는 일련의 조치이다.
개인정보 식별요소 제거방법 및 예시
비식별 기술 | 제거 방법 | 예시 |
가명처리 | 식별요소를 다른 값으로 대체 | 홍길동, 33세, 인천 거주, 한양대 재학 -> 임꺽정, 30대, 서울 거주, 국제대 재학 |
총계처리 또는 평균값 대체 |
데이터를 통합으로 표시하여 개별 데이터값을 보이지 않도록 함 | 임꺽정 180cm, 홍길동 170cm -> 1학년 1반 학생 키 합계 350cm, 평균 키 175cm |
데이터값 삭제 | 개인 식별을 인식할 수 있는 값 삭제 | 홍길동, 33세, 인천 거주, 한양대 졸업 -> 33세, 인천 거주 |
범주화 | 범주의 값으로 변환 | 홍길동, 33세 -> 홍 씨, 30~40세 |
데이터 마스킹 | 개인 식별자가 보이지 않도록 처리 | 홍길동, 35세 -> 홍*동, 35세 |
데이터 3법
데이터 3법이란 데이터 이용을 활성화하는 '개인정보보호법', '정보통신망 이용촉진 및 정보보호 등에 관한 법률(정보통신망법)', '신용정보의 이용 및 보호에 관한 법률(신용정보법)' 이다.
개인정보의 수집 및 수집 목적 내 이용이 가능한 경우
1. 정보주체의 동의를 받는 경우
2. 법률에 특별한 규정이 있거나 법령상 의무를 준수하기 위하여 불가피한 경우
3. 공공기관이 법령 등에서 정하는 소관 업무의 수행을 위하여 불가피한 경우
4. 정부주체와의 계약의 체결 및 이행을 위하여 불가피하게 필요한 경우
5. 명백히 정보주체 등의 급박한 생명, 신체, 재산의 이익을 위해 필요한 경우
6. (정보주체의 권리보다 우선하는) 개인정보처리자의 정당한 이익 달성을 위하여 필요한 경우
개인정보 수집 및 이용 시 필수 고지 사항
1. 개인정보의 수집 및 이용 목적
2. 수집하려는 개인정보의 항목
3. 개인정보의 보유 및 이용 기간
4. 동의를 거부할 권리가 있다는 사실 및 동의 거부에 따른 불이익이 있는 경우 그 불이익의 내용
참고자료 : ADsP한권으로끝내기(김계철 지음)
<함께보면 좋은 글>
'각종꿀팁 > IT 자격증' 카테고리의 다른 글
ADsP(데이터분석 준전문가) 2과목 데이터 분석 기획 시험 요약 공부 - 애자일모델, 워터폴모델, 분석과제정의서, 분석프로젝트관리방안 (0) | 2024.10.31 |
---|---|
ADsP(데이터분석 준전문가) 2과목 데이터 분석 기획 시험 요약 공부 - 분석 주제 유형, KDD분석방법론, CRISP-DM분석방법론, 빅데이터분석방법론 (0) | 2024.10.30 |
ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부 - 데이터 사이언티스트, ETL, 하둡 (0) | 2024.10.29 |
ADsP(데이터분석 준전문가) 1과목 데이터 이해 시험 요약 공부 (0) | 2024.10.27 |
ADsP(데이터분석 준전문가) 자격 안내, 시험 일정, 공부 방법 (0) | 2024.10.27 |