반응형
RDD 의 3가지 특성
Dependency
- 어떤 입력을 필요로 하고 현재의 RDD 가 어떻게 만들어지는지 스파크에게 가르쳐 주는 것이 Dependency 입니다. 결과를 새로 만들어아야 하는 경우에 스파크는 이 의존성 정보를 참고하고 연산을 다시 반복해서 RDD 를 다시 만들 수 있습니다. 즉, 유연성을 제공합니다.
Partition(지역성 정보 포함)
- 스파크에게 작업을 나눠서 이그제큐터들에 분산해 파티션별로 병렬 연산할 수 있도록 해줍니다.
Compute function(연산 함수): Partition ⇒ Iterator[T]
- Iterator[T] 형태로 만들어줍니다.
반응형
'Data engineer > Apache Spark' 카테고리의 다른 글
[Spark]빅데이터 분석 환경 구축-0강. 개요 (0) | 2024.02.06 |
---|---|
[Spark]스키마 정의 장점 및 방법 (0) | 2024.01.21 |
[Spark]트랜스포메이션과 액션 (0) | 2024.01.21 |
[Spark]Spark 애플리케이션 용어 (0) | 2024.01.09 |
[Spark]Spark 디렉토리와 파일들 (0) | 2024.01.09 |