BCELoss#

class torch.nn.BCELoss(weight=None, size_average=None, reduce=None, reduction='mean')[原始碼]#

建立一個準則，用於衡量目標值與輸入機率之間的二元交叉熵。

未約簡的（即 reduction 設定為 'none'）損失可以描述為

\ell(x, y) = L = \{l_1,\dots,l_N\}^\top, \quad l_n = - w_n \left[ y_n \cdot \log x_n + (1 - y_n) \cdot \log (1 - x_n) \right],

其中 $N$ 是批次大小。如果 reduction 不是 'none' (預設為 'mean')，則：

\ell(x, y) = \begin{cases} \operatorname{mean}(L), & \text{if reduction} = \text{`mean';}\\ \operatorname{sum}(L), & \text{if reduction} = \text{`sum'.} \end{cases}

這用於衡量例如自編碼器中重建的誤差。請注意，目標 $y$ 應該是介於 0 和 1 之間的數字。

請注意，如果 $x_n$ 是 0 或 1，則在上述損失方程中，其中一個對數項在數學上將是未定義的。PyTorch 選擇將 $\log (0) = -\infty$ 設定為負無窮大，因為 $\lim_{x\to 0} \log (x) = -\infty$ 。然而，損失方程中的無窮大項出於多種原因是不受歡迎的。

首先，如果 $y_n = 0$ 或 $(1 - y_n) = 0$ ，那麼我們將 0 乘以無窮大。其次，如果我們有一個無窮大的損失值，那麼我們的梯度中也會有一個無窮大的項，因為 $\lim_{x\to 0} \frac{d}{dx} \log (x) = \infty$ 。這將導致 BCELoss 的反向傳播方法相對於 $x_n$ 變得非線性，並且將其用於線性迴歸等任務將不那麼直接。

我們的解決方案是 BCELoss 將其對數函式輸出鉗制在大於或等於 -100。這樣，我們總能獲得有限的損失值和線性的反向傳播方法。

引數

weight (Tensor, optional) – 為每個批次元素的手動重縮放權重。如果提供，則必須是大小為 nbatch 的 Tensor。
size_average (bool, optional) – 已棄用 (參見 reduction)。預設情況下，損失值在批次中的每個損失元素上取平均值。請注意，對於某些損失，每個樣本有多個元素。如果欄位 size_average 設定為 False，則損失值在每個小批次中而是求和。當 reduce 為 False 時忽略。預設值：True
reduce (bool, optional) – 已棄用 (參見 reduction)。預設情況下，損失值在每個小批次中根據 size_average 對觀測值進行平均或求和。當 reduce 為 False 時，返回每個批次元素的損失值，並忽略 size_average。預設值：True
reduction (str, optional) – 指定要應用於輸出的約簡方式：'none' | 'mean' | 'sum'。'none'：不應用約簡，'mean'：輸出的總和將除以輸出中的元素數量，'sum'：輸出將被求和。注意：size_average 和 reduce 正在被棄用，在此期間，指定這兩個引數中的任何一個都將覆蓋 reduction。預設值：'mean'

形狀

輸入： $(*)$ ，其中 $*$ 表示任意數量的維度。
目標： $(*)$ ，與輸入形狀相同。
輸出：標量。如果 reduction 為 'none'，則 $(*)$ ，與輸入形狀相同。

示例

>>> m = nn.Sigmoid()
>>> loss = nn.BCELoss()
>>> input = torch.randn(3, 2, requires_grad=True)
>>> target = torch.rand(3, 2, requires_grad=False)
>>> output = loss(m(input), target)
>>> output.backward()

forward(input, target)[原始碼]#

執行前向傳播。

返回型別: 張量

BCELoss#

文件

教程

資源