快捷方式

choose_qparams_affine

torchao.quantization.choose_qparams_affine(input: Tensor, mapping_type: MappingType, block_size: Tuple[int], target_dtype: dtype, quant_min: Optional[Union[int, float]] = None, quant_max: Optional[Union[int, float]] = None, eps: Optional[float] = None, scale_dtype: Optional[dtype] = None, zero_point_dtype: Optional[dtype] = torch.int32) Tuple[Tensor, Tensor][原始碼]
引數:
  • input (torch.Tensor) – fp32, bf16, fp16 輸入 Tensor

  • mapping_type (MappingType) – 確定 qparams 的計算方式,對稱或非對稱

  • block_size – (Tuple[int]): 量化的粒度,這表示共享同一 qparam 的張量元素的尺寸,例如,當尺寸與輸入張量維度相同時,我們使用每張量量化

  • target_dtype (torch.dtype) – 目標量化 Tensor 的 dtype

  • quant_min (Optional[int]) – 目標量化 Tensor 的最小量化值

  • quant_max (Optioanl[int]) – 目標量化 Tensor 的最大量化值

  • eps (Optional[float]) – 最小尺度,如果未提供,則預設為 input.dtype 的 eps

  • scale_dtype (torch.dtype) – scale Tensor 的 dtype

  • zero_point_dtype (torch.dtype) – zero_point Tensor 的 dtype,預設為 torch.int32

  • params (現已移除) – zero_point_domain (ZeroPointDomain): zero_point 所在的域,預設為 Integer 或 None preserve_zero (bool): 是否在量化 Tensor 中保留零,預設為 True

輸出

具有所需 dtype 的 scale 和 zero_points Tensor 的元組

文件

訪問全面的 PyTorch 開發者文件

檢視文件

教程

為初學者和高階開發者提供深入的教程

檢視教程

資源

查詢開發資源並讓您的問題得到解答

檢視資源