반응형

Spark 애플리케이션 용어

  • 애플리케이션: API 를 써서 Spark 위에서 돌아가는 사용자 프로그램입니다. 드라이버 프로그램과 클러스터의 실행기로 이루어집니다.
  • SparkSession: Spark 코어 기능들과 상호 작용할 수 있는 진입점을 제공하며, 그 API 로 프로그래밍을 할 수 있게 해주는 객체입니다. Spark shell 에서 Spark 드라이버는 기본적으로 SparkSession 을 제공하지만 Spark 애플리케이션에서는 사용자가 SparkSession 객체를 생성해서 써야 합니다.
  • Job: Spark action(예. save(), collect()) 에 대한 응답으로 생성되는 여러 task 로 이루어진 병렬 연산입니다.
  • Stage: 각 job 은 스테이지라 불리는 서로 의존성을 가지는 다수의 task 모음으로 나누어집니다.
  • Task: Spark 이그제쿠터로 보내지는 작업 실행의 가장 기본적인 단위입니다.
반응형

'Data engineer > Apache Spark' 카테고리의 다른 글

[Spark]RDD 의 3가지 특성  (1) 2024.01.21
[Spark]트랜스포메이션과 액션  (0) 2024.01.21
[Spark]Spark 디렉토리와 파일들  (0) 2024.01.09
[Spark]Spark 사용 예시  (0) 2024.01.09
[Spark]tungsten 이란?  (0) 2024.01.07

+ Recent posts