하둡,spark
빅데이터 기초
데이터왕
2024. 1. 15. 16:08
빅데이터
- 정의1 : 서버 한대로 처리할 수 없는 규모의 데이터
- 분산환경에서는 scale-up(사양증가)를 하다가 scale-out을 하는게 일반적.
+ 분산환경 : 여러 컴퓨터 또는 서버가 네트워크를 통해 연결되어 작업을 협력적으로 수행하는 환경
- 정의2 : 기존의 소프트웨어(오라클,mysql)로는 처리할 수 없는 규모의 데이터
- 오라클,mysql,pandas로 처리할 데이터가 너무크면 spark를 사용
- 정의3 : 4V (Volume, Velocity, Variety, Varecity)
Volume: 데이터의 크기가 대용량?
Velocity: 데이터의 처리 속도가 중요?
Variety: 구조화/비구조화 데이터 둘다?
Veracity: 데이터의 품질이 좋은지?
빅데이터 예
- 빅데이터(디바이스데이터) 예 : 모바일디바이스, 스마트tv, 각종센서 데이터, 네트워킹디바이스
- 빅데이터(웹) 예 : 웹페이지(위키 및 기타사 이트), 사용자행동정보(검색어, 클릭정보)
빅데이터처리 특징
- 큰 데이터를 손실없이 보관할 방법 및 스토리지가 필요
방법1. 비구조화 데이터를 보관 : 이런 비구조화 데이터의 등장으로 SQL 만으로 불가능해진다.
방법2. 큰 데이터 저장이 가능한 분산 파일 시스템이 필요 - 처리 시간이 오래걸림
방법1. 병렬 처리가 가능한 분산 컴퓨팅 시스템이 필요.
방법2. 비구조화 데이터를 처리할수 있는 방법을 활용
대용량 분산 시스템이란?
- 분산 환경 : 1대 혹은 그 이상의 서버로 구성됨
+분산 파일 시스템과 분산 컴퓨팅 시스템을 포함하는 개념 - Fault Tolerance : 소수의 서버가 고장나도 동작해야함
- scale out 가능성 : 확장이 용이해야한다.
결론 : 하둡이 필요