huffman の記事一覧 | DocsDigest

一致した記事数: 1

Unweight：品質を犠牲にせずにLLMを22%圧縮した方法

Cloudflare / 2026/04/17

BF16指数をハフマン符号化
SMEMで復元してtensor coresへ直渡し
MLPで約30%、モデルで15–22%削減

bf16 huffman h100 shared-memory tensor-cores autotuning mlp

前へ1 / 1次へ