3 분 소요

[공지사항] 민혁 블로그 신규 포스팅 안내 드립니다.

1. 빅데이터 정의

정의

데이터 크기의 관점

빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석 할 수 있는 범위를 초과하는 규모의 데이터

데이터 분석 관점

빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처

데이터 가치의 관점

빅데이터란 대용량 데이터를 활용해 작은 용량에서 얻을 수 없었던 새로운 통찰이나 가치를 추출해 내는 일. 나아가 이를 활용해 시장, 기업 및 시민과 정보의 관계 등 많은 분야에 변화를 가져오는 일

데이터의 종류

정형데이터 (Structured Data)

숫자나 항목 선택과 같은 고정된 값으로 지정되는 데이터 예) 전자의무기록 데이터; 고정된 틀 데이터

반정형데이터 (Semi-Structured Data)

수기 또는 디지털로 추가 작성한 코멘트로서 고정되지 않은 형태이지만 포함되는 내용이나 용어 등에 일정한 패턴 존재 예) 어노테이션; 고정된 틀X, 일종의 패턴 데이터

비정형데이터 (Unstructured Data)

X-ray, 초음파 등의 촬영기기를 통해 획득한 인체 내부의 영상으로 고정된 값으로 표현될 수 없는 데이터 예) 의료영상; 틀, 패턴X, 불규칙

구성요소 1 (빅데이터의 3V)

3V

다양성 (Variety)

정형, 비정형, 반정형, 기타

규모 (Volume)

테라바이트, 엑사바이트, 기록, 거래, 사물인터넷 등

속도 (Velocity)

배치처리, 실시간 처리, 센서 모니터링, 스트리밍 등

구성요소 2 (4V)

규모 관점에서 분석, 가치 관점으로 변화

다양성 (Variety)

규모 (Volume)

속도 (Velocity)

가치 (Value)

광의의 빅데이터 정의

  • 조직의 내외부에 존재하는 다양한 형태의 데이터를 수집, 처리, 저장
  • 목적에 맞게 분석함으로써 해당 분야의 필요 지식을 추출
  • 이를 조직의 전략적 의사결정에 활용, 시스템화하여 상시적 운영시스템으로 활용, 비즈니스 모델의 개발 및 개선에 활용하는 등의 제반 행위

But, 빅데이터의 정의는 고정되어 있지 않고 살아있는 생명체처럼 지속 변화한다는 의미


2. 빅데이터의 출현 배경 및 데이터의 이해

빅데이터 출현배경

메인프레임 컴퓨터 -> PC 시대 -> 인터넷/모바일 시대 -> IT Everywhere(AI, IOT)

시대 메인 컴퓨터 PC 시대 인터넷/모바일 IT(AI, IOT)
데이터 규모 EB(Exa Byte) EB(Exa Byte) ZB(Zetta Byte) ZB 본격화 시대
데이터 유형 정형 데이터 정형 데이터 비정형 데이터 사물정보, 인지정보
데이터 특성 구조화 구조화 다양성, 복합성, 소셜 현실성, 실시간성

데이터의 이해

구분 내용
데이터 (Data) 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실
정보 (Information) 데이터의 가공, 처리와 데이터간 연속관계 속에서 의미가 도출 되는 것
지식(Knowledge) 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식을 내재화
지혜(Wisdom) 지식의 축적과 아이디어가 결합된 창의적인 상물

DIKW 계층 지혜 - 지식 - 정보 - 데이터 DIKW


3. 빅데이터 분석 활용사례를 통해 알아보는 빅데이터 영향

해외 빅데이터 분석 우수 사례 목록

Google - 검색 알고리즘 개선

검색 결과의 정확성과 사용자 만족도 높이기 위한 사용자 검색 쿼리, 클릭 패턴, 이전 검색 기록 등 분석

Netflix - 콘텐츠 추천 시스템

사용자의 시청 이력, 평가, 검색 기록 등을 분석

Uber - 도시 교통 최적화

이동 패턴, 택시 호출 데이터, 교통 상황 등을 분석하여 실시간 도시 교통 최적화, 효율적인 이동 경로 제공

Airbnb - 가격 동적 조절

예약 패턴, 지역 행사 정보, 경쟁사 가격 등을 분석하여 숙소 가격 동적 조절, 최적의 가격 제공

숨은 니즈를 정확히 공략하는 무기, 빅데이터 분석

국내 빅데이터 분석 우수 사례 목록

(의료 빅데이터 분석 및 활용) 한국건강증진개발원 - 만성 질환 예측과 관리

건강검진 및 의료 데이터를 활용

(의료 빅데이터 분석 및 활용) 서울아산병원 - 심혈관질환 조기 진단 Dr.AI 프로젝트

의료 빅데이터(텍스트, 영상) 분석

(공공 빅데이터 분석 및 활용) 해양안전 세이프존 확대를 위한 빅데이터 분석

빅데이터 기반 해양안전 위험지수 도출 및 세이프존 시각화

대표사례 분석

서울시 범죄 취약구역에 따른 안심 귀갓길 안내 및 치안 안전시설 효과

범죄 발생 예상 위치 샘플링

1) 범죄 클러스터 산출

  • 범죄 밀도 지도 -> 범죄 밀도 정보 벡터화 -> 범죄 클러스터 산출

2) Monte-Carlo Sampling

  • 범죄 클러스터 별 다변량정규분포 가정 -> 각 다변량정규분포에서 Seed 별 범죄예상 위치 샘플링

4. 빅데이터 분석을 위한 역량

데이터 분석가, 데이터 엔지니어, 데이터 과학자 차이

데이터 분석가 (Data Analyst)

데이터를 해석해서 비즈니스 의사결정을 돕는 정보로 만드는 사람 요구 기술: 통계학, 수학, 커뮤니케이션, 스프레드시트 & DB 사용, BI 툴을 이용한 시각화 주 사용 언어: SQL, R, Python

데이터 엔지니어 (Data Engineer)

빅데이터를 처리할 수 있는 인프라 & 아키텍처를 만드는 사람 요구 기술: 프로그래밍, 수학, 빅데이터 다양한 데이터베이스 지식, ETL 및 BI 도구들에 대한 지식 주 사용 언어: Python, SQL, 쉘스크립트

데이터 과학자 (Data Scientist)

수학자+과학자+도메인전문가. 큰 데이터도 잘 다루고, 복잡한 문제를 해결하는 사람 요구 기술: 수학, 통계학, ML, 딥러닝, 분산 컴퓨팅, 데이터 모델링, 스토리텔링, 시각화, 도메인 지식, 커뮤니케이션 주 사용 언어: SQL, Python ,R


5. 빅데이터 기술 및 제도

빅데이터 플랫폼

다양하고 방대한 양의 데이터로부터 수집한 데이터를 처리하고 분석하여 지식을 추출함으로써 지능화된 서비스를 제공하기 위한 IT 환경

  • 데이터 소스 -> 수집 -> 저장 -> 처리 -> 분석 -> 표현

인공지능 이란?

  1. 인간의 학습 능력, 추론 능력, 지각 능력, 그외에 인공적으로 구현한 컴퓨터 프로그램 또는 이를 포함한 컴퓨터 시스템
  2. 컴퓨터나 로봇이 지능 생명체와 관련된 역할을 수행하는 능력
  3. 지능적인 기계를 만드는 과학과 공학기술
  4. 인간이 수행한다면 지능이 필요한 일을 하는 기계를 만드는 과학

빅데이터와 인공지능

BigAI

빅데이터와 AI의 관계

BigAI2

댓글남기기