Search: blog.kog.ai | Heykuki News

Heykuki News

Top New Best Ask Show Jobs

Top New Best Ask Show Jobs

1.

Real-time LLM Inference on Standard GPUs: 3k tokens/s per request (blog.kog.ai)

218 points

9 days ago

2.

Real-time LLM Inference on Standard GPUs (3k tokens/s per request) (blog.kog.ai)

7 points

10 days ago

3.

Delayed Tensor Parallelism for Faster Transformer Inference (blog.kog.ai)

2 points

9 days ago