하둡,spark
하둡의 등장과, spark로의 흐름
데이터왕
2024. 1. 15. 15:01
하둡과 spark로 흐름 요약
- 대용량 데이터 처리를 위한 오픈소스 기술인 하둡이 등장하면서 데이터 처리 방식이 혁신되었습니다.
- 하둡은 분산 파일 시스템과 분산 컴퓨팅 시스템으로 구성되어 있으며, 핵심 구성 요소로는 HDFS와 맵리듀스/YARN이 있습니다.
- 맵리듀스 프로그래밍은 제약이 많아 데이터 처리가 어려웠고, 이로 인해 SQL이 다시 주목받게 되었습니다.
+맵리듀스의 제약 : 병렬 처리를 위해 데이터를 키-값 쌍으로 변환해야 한다. 이로 인해 복잡한 작업을 수행하기가 어려워지고, 비즈니스 로직을 표현하는 데에도 한계가 있다. 또한 맵리듀스는 반복적인 계산을 표현하기에는 적합하지 않아, 반복이 많은 작업에서 효율성이 떨어진다. - SQL은 데이터 처리를 보다 직관적으로 수행할 수 있도록 도와주는 장점을 가지고 있습니다.
- 최근에는 Spark가 대세로 떠오르고 있는데, 이는 대용량 데이터의 분산 컴퓨팅을 위한 기술로 평가받고 있습니다.
- Spark는 Pandas와 Scikit Learn을 강화시킨 것으로 볼 수 있어, 강력한 성능을 자랑합니다.
- 뿐만 아니라, SQL 쿼리를 지원하며 스트림 데이터 처리와 그래프 처리도 가능합니다.
- Spark은 데이터 처리에 있어 다양한 작업에 효과적으로 대응할 수 있는 다재다능한 기술로 인정받고 있습니다.
- 이는 기존의 맵리듀스 프로그래밍의 한계를 극복하고 보다 효율적인 데이터 처리를 가능케 합니다.
- 따라서 Spark는 현대의 데이터 처리 환경에서 중요한 위치를 차지하고 있습니다.