반응형
Spark 특성 4가지
Spark 특성으로는 4가지가 있습니다. 속도, 사용 편의성, 모듈성, 그리고 확장성이 있습니다.
속도
- Spark 는 질의 연산을 방향성 비순환 그래프(directed acyclic graph, Dag)로 구성합니다.
- Dag 의 스케줄러와 질의 최적화 모듈은 효율적인 연산 그래프를 만들어서 각가의 태스크로 분해하여 클러스터의 워커 노드 위에서 병렬 수행될 수 있도록 해줍니다.
- Spark 는 물리적 실행 엔진인 Tungsten(텅스텐) 의 전체적 코드 생성(whole-stage code generation) 이라는 방법을 사용하여 간결한 코드를 생성합니다.
- Spak 는 디스크 I/O 를 제한적으로 사용하여 성능이 크게 향상시켰습니다.
*방향성 비순환 그래프(directed acyclic graph, Dag)
https://infoinhere.tistory.com/118
사용 편의성
- RDD 를 제공하여 편한 언어로 빅데이터 애플리케이션을 만들 수 있도록 해줍니다.
모듈성
- api 로 이루어진 통합 라이브러리를 제공합니다.
- 컴포넌트로는 스파크 SQL, 스파크 정형화 스트리밍, 스파크 MLlib, GraphX 가 있습니다.
확장성
- Spark 는 저장보다는 빠른 병렬 연산 엔진에 집중되어 있습니다. 저장과 연산을 모두 포함하는 Apache Hadoop 과 달리 저장과 연산을 분리했습니다.
- Spark DataFrameReader 와 DataFrameWriter 는 kafka, Kinesis, Azure, AWS S3 등의 데이터 소스에서 데이터를 읽어와 논리적인 데이터 추상화 레벨에서 처리하도록 확장이 가능합니다.
반응형
'Data engineer > Apache Spark' 카테고리의 다른 글
[Spark]GraphX (0) | 2024.01.07 |
---|---|
[Spark]Spark 정형화 스트리밍(Structured Streaming) (1) | 2024.01.07 |
[Spark]Spark MLlib(Machine Learning Library) (0) | 2024.01.07 |
[Spark]Spark SQL 이란? (0) | 2024.01.07 |
[Spark]방향성 비순환 그래프(directed acyclic graph, Dag) (2) | 2024.01.07 |