GemliteUIntXWeightOnlyConfig¶
- class torchao.quantization.GemliteUIntXWeightOnlyConfig(group_size: Optional[int] = 128, bit_width: int = 4, packing_bitwidth: Optional[int] = None, mode: Optional[str] = 'weight_only', set_inductor_config: bool = True)[原始碼]¶
應用權重僅 4 位或 8 位整數量化,並利用 gemlite triton 核心及其相關的權重打包格式。這僅適用於 fp16 模型。8 位量化是對稱的,4 位量化是不對稱的。
- 引數:
group_size – 量化的引數,控制量化的粒度,尺寸越小,粒度越精細
bit_width – 量化權重的位數。
packing_bitwidth – 打包權重的位數,應為 8 或 32。根據硬體可能會影響效能。
mode – 如果設定為“dynamic”,則在執行時量化啟用;預設為“weight_only”(僅權重量化)。
set_inductor_config – 如果為 True,則將 torchinductor 設定調整為推薦值。