반응형
What is Dense?
“매번 회의할 때 전 직원 전부 회의실에 들어오는 회사”
Technically?
- 입력 토큰이 들어오면 모든 파라미터가 항상 계산
- GPU가 제일 잘하는 방식 (연속적, 병렬 계산)
- 지연 시간(latency)이 일정함
What is Sparse?
“회의할 때 관련 있는 팀만 자동으로 소집되는 회사”
Technically?
- 토큰마다 일부 expert만 선택해서 계산
- 전체 파라미터 수 ↑
- 실제 연산량(FLOPs)은 제한 가능
So when do we use Dense vs Sparse?
- Dense: 안정적 · 예측 가능 · 서비스/공공/운영에 유리
- Sparse(MoE): 용량 확장 · 연구/대규모 학습에 유리하지만 복잡함
Is Sparse is always fast and cheap?
Sparse는 계산은 줄지만, 시스템은 훨씬 복잡합니다.
Example probles:
- 어떤 expert를 쓸지 라우팅해야 함
- 특정 expert로 쏠림 현상
- expert가 서로 다른 GPU에 있으면 통신 지옥
- 소규모 요청·실시간 추론에서는 이득이 사라짐
So?
- Dense = 안정적인 뼈대
- Sparse = 선택적으로 붙이는 확장 슬롯
In reallity?
“학습은 Sparse, 서비스는 Dense”
학습(Training) = Sparse
- 대규모 배치
- 장시간 실행
- 전용 인프라
추론(Inference) = Dense
- 실시간
- 소량 요청
- 지연 시간 안정성 중요
More?
GPU
- GPU는 본질적으로 Dense 친화적
- Sparse는:
- 네트워크
- 메모리
- 스케줄링
- 런타임
전부 잘해야 함
반응형
'머신러닝 & 딥러닝' 카테고리의 다른 글
| SVM (0) | 2023.05.14 |
|---|---|
| Feature space (1) | 2023.05.14 |
| Failed to get CPU frequency: 0 Hz (0) | 2023.05.06 |
| tf.config.set_visible_devices() (0) | 2023.05.06 |
| [library] seaborn (0) | 2023.04.28 |