Lossless LLM compression for efficient GPU inference via dynamic-length float

Heykuki News

411 points

a year ago

117 comments

Lossless LLM compression for efficient GPU inference via dynamic-length float | Heykuki News