快捷方式

GemliteUIntXWeightOnlyConfig

class torchao.quantization.GemliteUIntXWeightOnlyConfig(group_size: Optional[int] = 128, bit_width: int = 4, packing_bitwidth: Optional[int] = None, mode: Optional[str] = 'weight_only', set_inductor_config: bool = True)[原始碼]

應用權重僅 4 位或 8 位整數量化,並利用 gemlite triton 核心及其相關的權重打包格式。這僅適用於 fp16 模型。8 位量化是對稱的,4 位量化是不對稱的。

引數:
  • group_size – 量化的引數,控制量化的粒度,尺寸越小,粒度越精細

  • bit_width – 量化權重的位數。

  • packing_bitwidth – 打包權重的位數,應為 8 或 32。根據硬體可能會影響效能。

  • mode – 如果設定為“dynamic”,則在執行時量化啟用;預設為“weight_only”(僅權重量化)。

  • set_inductor_config – 如果為 True,則將 torchinductor 設定調整為推薦值。

文件

訪問全面的 PyTorch 開發者文件

檢視文件

教程

為初學者和高階開發者提供深入的教程

檢視教程

資源

查詢開發資源並讓您的問題得到解答

檢視資源