하둡,spark

빅데이터 기초

데이터왕 2024. 1. 15. 16:08

빅데이터

  • 정의1 : 서버 한대로 처리할 수 없는 규모의 데이터
  • 분산환경에서는 scale-up(사양증가)를 하다가  scale-out을 하는게 일반적.
    + 분산환경 : 여러 컴퓨터 또는 서버가 네트워크를 통해 연결되어 작업을 협력적으로 수행하는 환경

 

  • 정의2 : 기존의 소프트웨어(오라클,mysql)로는 처리할 수 없는 규모의 데이터
  • 오라클,mysql,pandas로 처리할 데이터가 너무크면  spark를 사용
  • 정의3 : 4V (Volume, Velocity, Variety, Varecity)
    Volume: 데이터의 크기가 대용량?
    Velocity: 데이터의 처리 속도가 중요?
    Variety: 구조화/비구조화 데이터 둘다?
    Veracity: 데이터의 품질이 좋은지?

빅데이터 예

  • 빅데이터(디바이스데이터) 예 : 모바일디바이스, 스마트tv, 각종센서 데이터, 네트워킹디바이스
  • 빅데이터(웹) 예 : 웹페이지(위키 및 기타사 이트), 사용자행동정보(검색어, 클릭정보)

빅데이터처리 특징

  • 큰 데이터를 손실없이 보관할 방법 및 스토리지가 필요
    방법1. 비구조화 데이터를 보관 : 이런 비구조화 데이터의 등장으로 SQL 만으로 불가능해진다.
    방법2. 큰 데이터 저장이 가능한 분산 파일 시스템이 필요
  • 처리 시간이 오래걸림
    방법1. 병렬 처리가 가능한 분산 컴퓨팅 시스템이 필요.
    방법2. 비구조화 데이터를 처리할수 있는 방법을 활용

 

대용량 분산 시스템이란?

  • 분산 환경 : 1대 혹은 그 이상의 서버로 구성됨
    +분산 파일 시스템과 분산 컴퓨팅 시스템을 포함하는 개념
  • Fault Tolerance : 소수의 서버가 고장나도 동작해야함
  • scale out 가능성 : 확장이 용이해야한다.

 

결론 : 하둡이 필요