Mixture-of-Depths: Dynamically allocating compute in transformers | Heykuki News

Heykuki News

Top New Best Ask Show Jobs

Top New Best Ask Show Jobs

Mixture-of-Depths: Dynamically allocating compute in transformers | Heykuki News

Mixture-of-Depths: Dynamically allocating compute in transformers

281 points

2 years ago

83 comments