GemliteUIntXWeightOnlyConfig¶

class torchao.quantization.GemliteUIntXWeightOnlyConfig(group_size: Optional[int] = 128, bit_width: int = 4, packing_bitwidth: Optional[int] = None, mode: Optional[str] = 'weight_only', set_inductor_config: bool = True)[原始碼]¶

應用權重僅 4 位或 8 位整數量化，並利用 gemlite triton 核心及其相關的權重打包格式。這僅適用於 fp16 模型。8 位量化是對稱的，4 位量化是不對稱的。

引數: