Dense vs Sparse :: DataRailroad

Dense vs Sparse

RailCoder 2025. 12. 29. 23:33

2025. 12. 29. 23:33

What is Dense?

“매번 회의할 때 전 직원 전부 회의실에 들어오는 회사”

Technically?

입력 토큰이 들어오면 모든 파라미터가 항상 계산
GPU가 제일 잘하는 방식 (연속적, 병렬 계산)
지연 시간(latency)이 일정함

What is Sparse?

“회의할 때 관련 있는 팀만 자동으로 소집되는 회사”

Technically?

토큰마다 일부 expert만 선택해서 계산
전체 파라미터 수 ↑
실제 연산량(FLOPs)은 제한 가능

So when do we use Dense vs Sparse?

Dense: 안정적 · 예측 가능 · 서비스/공공/운영에 유리
Sparse(MoE): 용량 확장 · 연구/대규모 학습에 유리하지만 복잡함

Is Sparse is always fast and cheap?

Sparse는 계산은 줄지만, 시스템은 훨씬 복잡합니다.

Example probles:

어떤 expert를 쓸지 라우팅해야 함
특정 expert로 쏠림 현상
expert가 서로 다른 GPU에 있으면 통신 지옥
소규모 요청·실시간 추론에서는 이득이 사라짐

So?

Dense = 안정적인 뼈대
Sparse = 선택적으로 붙이는 확장 슬롯

In reallity?

“학습은 Sparse, 서비스는 Dense”

학습(Training) = Sparse

대규모 배치
장시간 실행
전용 인프라

추론(Inference) = Dense

실시간
소량 요청
지연 시간 안정성 중요

More?

GPU

GPU는 본질적으로 Dense 친화적
Sparse는:
- 네트워크
- 메모리
- 스케줄링
- 런타임
  전부 잘해야 함

저작자표시 비영리 변경금지 (새창열림)

'머신러닝 & 딥러닝' 카테고리의 다른 글

SVM (0)	2023.05.14
Feature space (1)	2023.05.14
Failed to get CPU frequency: 0 Hz (0)	2023.05.06
tf.config.set_visible_devices() (0)	2023.05.06
[library] seaborn (0)	2023.04.28

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바