반응형

RDD 의 3가지 특성

Dependency

  • 어떤 입력을 필요로 하고 현재의 RDD 가 어떻게 만들어지는지 스파크에게 가르쳐 주는 것이 Dependency 입니다. 결과를 새로 만들어아야 하는 경우에 스파크는 이 의존성 정보를 참고하고 연산을 다시 반복해서 RDD 를 다시 만들 수 있습니다. 즉, 유연성을 제공합니다.

 

Partition(지역성 정보 포함)

  • 스파크에게 작업을 나눠서 이그제큐터들에 분산해 파티션별로 병렬 연산할 수 있도록 해줍니다.

 

Compute function(연산 함수): Partition ⇒ Iterator[T]

  • Iterator[T] 형태로 만들어줍니다.
반응형

+ Recent posts