'RDD 의 3가지 특성' 태그의 글 목록 :: DataRailroad

RDD 의 3가지 특성

[Spark]RDD 의 3가지 특성 2024.01.21 1

[Spark]RDD 의 3가지 특성

RailCoder 2024. 1. 21. 02:23

2024. 1. 21. 02:23

RDD 의 3가지 특성

Dependency

어떤 입력을 필요로 하고 현재의 RDD 가 어떻게 만들어지는지 스파크에게 가르쳐 주는 것이 Dependency 입니다. 결과를 새로 만들어아야 하는 경우에 스파크는 이 의존성 정보를 참고하고 연산을 다시 반복해서 RDD 를 다시 만들 수 있습니다. 즉, 유연성을 제공합니다.

Partition(지역성 정보 포함)

스파크에게 작업을 나눠서 이그제큐터들에 분산해 파티션별로 병렬 연산할 수 있도록 해줍니다.

Compute function(연산 함수): Partition ⇒ Iterator[T]

Iterator[T] 형태로 만들어줍니다.

저작자표시 비영리 변경금지

'Data engineer > Apache Spark' 카테고리의 다른 글

[Spark]빅데이터 분석 환경 구축-0강. 개요 (0)	2024.02.06
[Spark]스키마 정의 장점 및 방법 (0)	2024.01.21
[Spark]트랜스포메이션과 액션 (0)	2024.01.21
[Spark]Spark 애플리케이션 용어 (0)	2024.01.09
[Spark]Spark 디렉토리와 파일들 (0)	2024.01.09

PREV 이전 1 NEXT 다음

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바