Data engineer/Apache Spark
[Spark]RDD 의 3가지 특성
RailCoder
2024. 1. 21. 02:23
반응형
RDD 의 3가지 특성
Dependency
- 어떤 입력을 필요로 하고 현재의 RDD 가 어떻게 만들어지는지 스파크에게 가르쳐 주는 것이 Dependency 입니다. 결과를 새로 만들어아야 하는 경우에 스파크는 이 의존성 정보를 참고하고 연산을 다시 반복해서 RDD 를 다시 만들 수 있습니다. 즉, 유연성을 제공합니다.
Partition(지역성 정보 포함)
- 스파크에게 작업을 나눠서 이그제큐터들에 분산해 파티션별로 병렬 연산할 수 있도록 해줍니다.
Compute function(연산 함수): Partition ⇒ Iterator[T]
- Iterator[T] 형태로 만들어줍니다.
반응형