반응형

트랜스포메이션과 액션

트랜스포메이션

  • 불변성의 특징을 가진 원본 데이터를 수정하지 않고 하나의 Spark 데이터 프레임을 새로운 데이터 프레임으로 바꾸는 것을 말합니다. 예를 들어 select(), filter() 같은 연산은 원본 데이터 프레임을 수정하지 않으며, 새로운 데이터 프레임으로 연산 결과를 만들어 되돌려 줍니다.
  • 모든 트랜스포메이션은 뒤늦게 평가합니다. 결과가 즉시 계산되는 게 아니라 계보(lineage)라 불리는 형태로 기록됩니다. 기록된 lineage 는 실행 계획에서 후반쯤에 Spark 가 확실한 트랜스포메이션들끼리 재배열하거나 합치거나 해서 더 효율적으로 실행할 수 있도록 최적화하도록 합니다.
  • 지연 평가는 액션이 실행되는 시점이나 데이터에 실제 접근하는 시점까지 실제 실행을 미루는 Spark 의 전략입니다.

 

액션

  • 액션은 모든 기록된 트랜스포메이션의 지연 연산을 발동시킵니다.
반응형

+ Recent posts