huffman Articles | DocsDigest

Matched posts: 1

Unweight: how we compressed an LLM 22% without sacrificing quality

Cloudflare / Apr 17, 2026

BF16指数をハフマン符号化
SMEMで復元してtensor coresへ直渡し
MLPで約30%、モデルで15–22%削減

bf16 huffman h100 shared-memory tensor-cores autotuning mlp

Previous1 / 1Next