1.빅데이터의 이해
[공지사항] 민혁 블로그 신규 포스팅 안내 드립니다.
1. 빅데이터 정의
정의
데이터 크기의 관점
빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석 할 수 있는 범위를 초과하는 규모의 데이터
데이터 분석 관점
빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
데이터 가치의 관점
빅데이터란 대용량 데이터를 활용해 작은 용량에서 얻을 수 없었던 새로운 통찰이나 가치를 추출해 내는 일. 나아가 이를 활용해 시장, 기업 및 시민과 정보의 관계 등 많은 분야에 변화를 가져오는 일
데이터의 종류
정형데이터 (Structured Data)
숫자나 항목 선택과 같은 고정된 값으로 지정되는 데이터 예) 전자의무기록 데이터; 고정된 틀 데이터
반정형데이터 (Semi-Structured Data)
수기 또는 디지털로 추가 작성한 코멘트로서 고정되지 않은 형태이지만 포함되는 내용이나 용어 등에 일정한 패턴 존재 예) 어노테이션; 고정된 틀X, 일종의 패턴 데이터
비정형데이터 (Unstructured Data)
X-ray, 초음파 등의 촬영기기를 통해 획득한 인체 내부의 영상으로 고정된 값으로 표현될 수 없는 데이터 예) 의료영상; 틀, 패턴X, 불규칙
구성요소 1 (빅데이터의 3V
)
다양성 (Variety)
정형, 비정형, 반정형, 기타
규모 (Volume)
테라바이트, 엑사바이트, 기록, 거래, 사물인터넷 등
속도 (Velocity)
배치처리, 실시간 처리, 센서 모니터링, 스트리밍 등
구성요소 2 (4V
)
규모 관점에서 분석, 가치 관점으로 변화
다양성 (Variety)
규모 (Volume)
속도 (Velocity)
가치 (Value)
광의의 빅데이터 정의
- 조직의
내외부
에 존재하는다양한 형태
의 데이터를수집, 처리, 저장
- 목적에 맞게
분석
함으로써 해당 분야의필요 지식을 추출
- 이를 조직의 전략적 의사결정에 활용, 시스템화하여 상시적 운영시스템으로 활용, 비즈니스 모델의 개발 및 개선에 활용하는 등의 제반 행위
But, 빅데이터의 정의는 고정되어 있지 않고 살아있는 생명체처럼 지속 변화한다는 의미
2. 빅데이터의 출현 배경 및 데이터의 이해
빅데이터 출현배경
메인프레임 컴퓨터
-> PC 시대
-> 인터넷/모바일 시대
-> IT Everywhere
(AI, IOT)
시대 | 메인 컴퓨터 | PC 시대 | 인터넷/모바일 | IT(AI, IOT) |
---|---|---|---|---|
데이터 규모 | EB(Exa Byte) | EB(Exa Byte) | ZB(Zetta Byte) | ZB 본격화 시대 |
데이터 유형 | 정형 데이터 | 정형 데이터 | 비정형 데이터 | 사물정보, 인지정보 |
데이터 특성 | 구조화 | 구조화 | 다양성, 복합성, 소셜 | 현실성, 실시간성 |
데이터의 이해
구분 | 내용 |
---|---|
데이터 (Data) | 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실 |
정보 (Information) | 데이터의 가공, 처리와 데이터간 연속관계 속에서 의미가 도출 되는 것 |
지식(Knowledge) | 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식을 내재화 |
지혜(Wisdom) | 지식의 축적과 아이디어가 결합된 창의적인 상물 |
DIKW 계층
지혜 - 지식 - 정보 - 데이터
3. 빅데이터 분석 활용사례를 통해 알아보는 빅데이터 영향
해외 빅데이터 분석 우수 사례 목록
Google - 검색 알고리즘 개선
검색 결과의 정확성과 사용자 만족도 높이기 위한 사용자 검색 쿼리, 클릭 패턴, 이전 검색 기록 등 분석
Netflix - 콘텐츠 추천 시스템
사용자의 시청 이력, 평가, 검색 기록 등을 분석
Uber - 도시 교통 최적화
이동 패턴, 택시 호출 데이터, 교통 상황 등을 분석하여 실시간 도시 교통 최적화, 효율적인 이동 경로 제공
Airbnb - 가격 동적 조절
예약 패턴, 지역 행사 정보, 경쟁사 가격 등을 분석하여 숙소 가격 동적 조절, 최적의 가격 제공
숨은 니즈를 정확히 공략하는 무기, 빅데이터 분석
국내 빅데이터 분석 우수 사례 목록
(의료 빅데이터 분석 및 활용) 한국건강증진개발원 - 만성 질환 예측과 관리
건강검진 및 의료 데이터를 활용
(의료 빅데이터 분석 및 활용) 서울아산병원 - 심혈관질환 조기 진단 Dr.AI 프로젝트
의료 빅데이터(텍스트, 영상) 분석
(공공 빅데이터 분석 및 활용) 해양안전 세이프존 확대를 위한 빅데이터 분석
빅데이터 기반 해양안전 위험지수 도출 및 세이프존 시각화
대표사례 분석
서울시 범죄 취약구역에 따른 안심 귀갓길 안내 및 치안 안전시설 효과
범죄 발생 예상 위치 샘플링
1) 범죄 클러스터 산출
- 범죄 밀도 지도 -> 범죄 밀도 정보 벡터화 -> 범죄 클러스터 산출
2) Monte-Carlo Sampling
- 범죄 클러스터 별 다변량정규분포 가정 -> 각 다변량정규분포에서 Seed 별 범죄예상 위치 샘플링
4. 빅데이터 분석을 위한 역량
데이터 분석가, 데이터 엔지니어, 데이터 과학자 차이
데이터 분석가 (Data Analyst)
데이터를 해석해서 비즈니스 의사결정을 돕는 정보로 만드는 사람
요구 기술
: 통계학, 수학, 커뮤니케이션, 스프레드시트 & DB 사용, BI 툴을 이용한 시각화
주 사용 언어
: SQL, R, Python
데이터 엔지니어 (Data Engineer)
빅데이터를 처리할 수 있는 인프라 & 아키텍처를 만드는 사람
요구 기술
: 프로그래밍, 수학, 빅데이터 다양한 데이터베이스 지식, ETL 및 BI 도구들에 대한 지식
주 사용 언어
: Python, SQL, 쉘스크립트
데이터 과학자 (Data Scientist)
수학자+과학자+도메인전문가. 큰 데이터도 잘 다루고, 복잡한 문제를 해결하는 사람
요구 기술
: 수학, 통계학, ML, 딥러닝, 분산 컴퓨팅, 데이터 모델링, 스토리텔링, 시각화, 도메인 지식, 커뮤니케이션
주 사용 언어
: SQL, Python ,R
5. 빅데이터 기술 및 제도
빅데이터 플랫폼
다양하고 방대한 양의 데이터로부터 수집한 데이터를 처리하고 분석하여 지식을 추출함으로써 지능화된 서비스를 제공하기 위한 IT 환경
데이터 소스
->수집
->저장
->처리
->분석
->표현
인공지능 이란?
- 인간의 학습 능력, 추론 능력, 지각 능력, 그외에 인공적으로 구현한 컴퓨터 프로그램 또는 이를 포함한 컴퓨터 시스템
- 컴퓨터나 로봇이 지능 생명체와 관련된 역할을 수행하는 능력
- 지능적인 기계를 만드는 과학과 공학기술
- 인간이 수행한다면 지능이 필요한 일을 하는 기계를 만드는 과학
댓글남기기