반응형

 

What is Dense?

“매번 회의할 때 전 직원 전부 회의실에 들어오는 회사”

 

Technically?

 

  • 입력 토큰이 들어오면 모든 파라미터가 항상 계산
  • GPU가 제일 잘하는 방식 (연속적, 병렬 계산)
  • 지연 시간(latency)이 일정함

 

What is Sparse?

“회의할 때 관련 있는 팀만 자동으로 소집되는 회사”

 

Technically?

 

  • 토큰마다 일부 expert만 선택해서 계산
  • 전체 파라미터 수 ↑
  • 실제 연산량(FLOPs)은 제한 가능

 

 

 

So when do we use Dense vs Sparse?

 

  • Dense: 안정적 · 예측 가능 · 서비스/공공/운영에 유리
  • Sparse(MoE): 용량 확장 · 연구/대규모 학습에 유리하지만 복잡함

 

 

Is Sparse is always fast and cheap?

Sparse는 계산은 줄지만, 시스템은 훨씬 복잡합니다.

 

 

Example probles:

 

  • 어떤 expert를 쓸지 라우팅해야 함
  • 특정 expert로 쏠림 현상
  • expert가 서로 다른 GPU에 있으면 통신 지옥
  • 소규모 요청·실시간 추론에서는 이득이 사라짐

 

 

So?

 

  • Dense = 안정적인 뼈대
  • Sparse = 선택적으로 붙이는 확장 슬롯

 

In reallity?

“학습은 Sparse, 서비스는 Dense”

 

학습(Training) = Sparse

  • 대규모 배치
  • 장시간 실행
  • 전용 인프라

추론(Inference) = Dense

  • 실시간
  • 소량 요청
  • 지연 시간 안정성 중요

 

More?

GPU

  • GPU는 본질적으로 Dense 친화적
  • Sparse는:
    • 네트워크
    • 메모리
    • 스케줄링
    • 런타임
      전부 잘해야 함

 

반응형

'머신러닝 & 딥러닝' 카테고리의 다른 글

SVM  (0) 2023.05.14
Feature space  (1) 2023.05.14
Failed to get CPU frequency: 0 Hz  (0) 2023.05.06
tf.config.set_visible_devices()  (0) 2023.05.06
[library] seaborn  (0) 2023.04.28

+ Recent posts