Ordinal¶
- class torchrl.modules.Ordinal(scores: Tensor)[source]¶
一種離散分佈,用於學習從有限的有序集合中取樣。
它與 Categorical 分佈相對。 Categorical 分佈不施加任何鄰近性或排序的概念在其支撐的原子上。 Ordinal 分佈明確地編碼了這些概念,這對於從連續集中學習離散取樣非常有用。有關詳細資訊,請參閱 `Tang & Agrawal, 2020<https://arxiv.org/pdf/1901.10500.pdf>`_ 的 §5。
注意
當您想學習一個在離散化連續集合時獲得的有限集合上的分佈時,此類特別有用。
- 引數:
scores (torch.Tensor) – 一個形狀為 […, N] 的張量,其中 N 是支援該分佈的集合的大小。通常是引數化該分佈的神經網路的輸出。
示例
>>> num_atoms, num_samples = 5, 20 >>> mean = (num_atoms - 1) / 2 # Target mean for samples, centered around the middle atom >>> torch.manual_seed(42) >>> logits = torch.ones((num_atoms), requires_grad=True) >>> optimizer = torch.optim.Adam([logits], lr=0.1) >>> >>> # Perform optimisation loop to minimise deviation from `mean` >>> for _ in range(20): >>> sampler = Ordinal(scores=logits) >>> samples = sampler.sample((num_samples,)) >>> # Define loss to encourage samples around the mean by penalising deviation from mean >>> loss = torch.mean((samples - mean) ** 2 * sampler.log_prob(samples)) >>> loss.backward() >>> optimizer.step() >>> optimizer.zero_grad() >>> >>> sampler.probs tensor([0.0308, 0.1586, 0.4727, 0.2260, 0.1120], ...) >>> # Print histogram to observe sample distribution frequency across 5 bins (0, 1, 2, 3, and 4) >>> torch.histogram(sampler.sample((1000,)).reshape(-1).float(), bins=num_atoms) torch.return_types.histogram( hist=tensor([ 24., 158., 478., 228., 112.]), bin_edges=tensor([0.0000, 0.8000, 1.6000, 2.4000, 3.2000, 4.0000]))