FlexGen: Running large language models on a single GPU | Heykuki News

Heykuki News

Top New Best Ask Show Jobs

Top New Best Ask Show Jobs

FlexGen: Running large language models on a single GPU

github.com/FMInference

192 points

3 years ago

43 comments

FlexGen: Running large language models on a single GPU | Heykuki News