評價此頁

PerToken#

class torch.ao.quantization.observer.PerToken[source]#

表示量化中的每 token 粒度。

此粒度型別為每個 token 計算一組不同的量化引數,該 token 表示為張量的最後一個維度。

例如,如果輸入張量的形狀為 [2, 3, 4],則有 6 個 token,每個 token 包含 4 個元素,我們將計算 6 組量化引數,每組對應一個 token。

如果輸入張量只有兩個維度,例如 [8, 16],那麼這等效於 PerAxis(axis=0),它會產生 8 組量化引數。