Unweight:品質を犠牲にせずにLLMを22%圧縮した方法Cloudflare / 2026/04/17BF16指数をハフマン符号化SMEMで復元してtensor coresへ直渡しMLPで約30%、モデルで15–22%削減bf16huffmanh100shared-memorytensor-coresautotuningmlp