常見 PyTorch 錯誤及解決方案¶

與梯度相關的錯誤 [新手]¶

新手在從頭開始編寫強化學習演算法時，經常會遇到與梯度相關的問題。典型的訓練迴圈通常可以勾勒如下

obs = env.reset()

for _ in range(n_training_steps):
    # STEP 1: data collection
    # Get a new datapoint "online"
    observations = []
    actions = []
    others = []
    for _ in range(n_data_per_training):
        with torch.no_grad():
            action = policy(obs)
        obs, *other = env.step(action)
        observations.append(obs)
        actions.append(action)
        others.append(other)
    replay_buffer.extend(observations, actions, others)

    # STEP 2: loss and optimization
    # => compute loss "offline"
    loss = loss_fn(replay_buffer.sample(batch_size))

    loss.backward()
    optim.step()
    optim.zero_grad()

一系列錯誤源於希望透過由 no_grad() 上下文管理器修飾的策略操作進行反向傳播。事實上，在大多數情況下，這個操作不應該成為任何計算圖的一部分。取而代之的是，所有可微操作都應該在 loss_fn(...) 抽象中執行。一般來說，強化學習是一個需要密切關注的領域，需要充分理解哪些應該被視為不可微“資料”（例如，環境互動、優勢和回報計算、PPO 中的“分母”對數機率），哪些應該被視為可微損失偽影（例如，值誤差、PPO 中的“分子”對數機率）。

需要注意的與此誤解相關的錯誤如下：

RuntimeError: Trying to backward through the graph a second time (or directly access saved tensors after they have already been freed). 這個錯誤通常是在計算圖的一部分資料點在損失函式中被使用了兩次之後出現的。一些使用者嘗試透過呼叫 loss.backward(retain_graph=True) 來修復，但這將導致列表中的下一個錯誤。相關的 PyTorch 錯誤討論
- 此處
- 此處
RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation 這通常發生在用 retain_graph=True 標誌修復第一個錯誤之後。相反，應該在 loss_fn 中重新計算要進行微分的操作。另一個常見的原因是兩個模組透過共享的計算圖進行更新（例如，策略和評論員）。在這種情況下，應該使用 retain_graph=True 標誌，儘管要注意這可能會將一個損失的梯度累加到另一個損失上。總的來說，更好的做法是為每個損失單獨重新計算每個中間值，同時排除特定圖中不需要的引數，即使某些子模組的前向呼叫匹配。
- 此處
- 此處
演算法沒有學習 / param.grad 為 0 或 None。演算法不學習可能有多種原因。首先要看的是引數梯度的值，其範數應該嚴格非負。相關的 PyTorch 錯誤討論
- 此處

我的訓練太慢 [新手 / 中級]¶

在某些情況下，強化學習以 CPU 密集型著稱。即使在並行執行少量環境時，透過為群集請求比正在處理的環境數量更多的核心（例如，兩倍），也可以看到顯著的速度提升。對於渲染的環境（即使在 GPU 上渲染）尤其如此。
訓練速度取決於多種因素，沒有一種萬能的解決方案。常見的瓶頸是
- 資料收集：模擬器的速度以及隨後的資料轉換可能會影響效能。加速環境互動通常透過向量化（如果模擬器支援，例如 Brax 和其他基於 Jax 的模擬器）或並行化（在 gym 和其他庫中被不恰當地稱為向量化環境）來實現。在 TorchRL 中，轉換通常可以在裝置上執行。
- 回放緩衝區儲存和取樣：將項儲存在回放緩衝區中可能需要時間，如果底層操作需要繁重的記憶體操作或繁瑣的索引（例如，使用優先回放緩衝區）。如果資料不是連續儲存的，或者執行了代價高昂的堆疊或連線操作，取樣也可能花費相當多的時間。TorchRL 在這些情況下提供了高效的連續儲存解決方案以及高效的寫入和取樣解決方案。
- 優勢計算：優勢函式的計算也可能構成計算瓶頸，因為它們通常使用純粹的 for 迴圈進行編碼。如果效能分析表明此操作花費了大量時間，請考慮使用我們完全向量化的解決方案。
- 損失計算：損失計算和最佳化步驟經常佔compute time 的重要份額。一些技術可以加速。例如，如果使用了多個目標網路，使用向量化對映和函數語言程式設計（透過 functorch）而不是遍歷模型配置可以提供顯著的加速。

常見錯誤¶

對於與 mujoco（包括 DeepMind Control suite 和其他庫）相關的錯誤，請參閱 MUJOCO_INSTALLATION 檔案。
ValueError: bad value(s) in fds_to_keep：這可能有多種原因。在 torchrl 中常見的一種原因是，您試圖在程序之間傳送一個張量的檢視。例如，當在程序之間傳送張量 b = tensor.expand(new_shape) 時，將丟失對原始內容的引用（因為 expand 操作會保留對原始張量的引用）。要除錯此問題，請查詢此類操作（view、permute、expand 等）並在呼叫函式後呼叫 clone() 或 contiguous()。

常見 PyTorch 錯誤及解決方案¶

我的訓練太慢 [新手 / 中級]¶

常見錯誤¶

文件

教程

資源