RolloutFromModel¶

class torchrl.data.RolloutFromModel(model, ref_model, reward_model, kl_coef=0.1, max_new_tokens=50, score_clip=10.0, kl_scheduler: KLControllerBase | None = None, num_steps: int | None = None)[源]¶

一個用於進行因果語言模型滾動的類。

假定此類包裝的模型接收標記化的文字作為輸入，其任務是在讀取前 n 個單詞後預測句子中的下一個單詞。

引數:

model (transformers.Transformer) – 要使用的模型。應具有 generate() 方法。
ref_model (transformers.Transformer) – model 的凍結版本，其引數處於初始配置狀態。這用於計算 KL 懲罰以獲取獎勵，以防止模型在訓練期間偏離參考模型過遠。
reward_model – (nn.Module, tensordict.nn.TensorDictModule)：一個模型，它接收 input_ids 和 attention_mask，計算每個 token 的獎勵和 end_scores（每個序列的最後一個 token 的獎勵）。
kl_coef – (float, 可選)：初始 KL 係數。
max_new_tokens (int, optional) – 序列的最大長度。預設為 50。
score_clip (float, optional) – 來自獎勵模型的得分被裁剪到範圍 (-score_clip, score_clip)。預設為 10。
kl_scheduler (KLControllerBase, optional) – KL 係數排程器。
num_steps (int, optional) – 兩次最佳化之間的步數。

示例

>>> from tensordict.nn import TensorDictModule
>>> from torchrl.modules.models.llm import GPT2RewardModel
>>> from torchrl.data.llm.utils import RolloutFromModel
>>> from torchrl.data.llm.dataset import get_dataloader
>>> from torchrl.data.llm.prompt import PromptData
>>> from transformers import GPT2LMHeadModel
>>>
>>> dl = get_dataloader(
...     batch_size=4,
...     block_size=550,
...     tensorclass_type=PromptData,
...     device="cpu",
...     dataset_name="CarperAI/openai_summarize_tldr",
... )
>>> model = GPT2LMHeadModel.from_pretrained("gpt2")
>>> # we load ref_model with random weights so it differs from model
>>> ref_model = GPT2LMHeadModel(GPT2LMHeadModel.config_class())
>>> reward_model = GPT2RewardModel(model_path="gpt2")
>>> rollout_from_model = RolloutFromModel(model, ref_model, reward_model)
>>>
>>> batch = next(dl)
>>> rollout = rollout_from_model.rollout_from_data(batch)
>>> rollout
TensorDict(
    fields={
        action: Tensor(shape=torch.Size([4, 50]), device=cpu, dtype=torch.int64, is_shared=False),
        attention_mask: Tensor(shape=torch.Size([4, 50, 600]), device=cpu, dtype=torch.bool, is_shared=False),
        input_ids: Tensor(shape=torch.Size([4, 50, 600]), device=cpu, dtype=torch.int64, is_shared=False),
        next: TensorDict(
            fields={
                attention_mask: Tensor(shape=torch.Size([4, 50, 600]), device=cpu, dtype=torch.bool, is_shared=False),
                done: Tensor(shape=torch.Size([4, 50, 1]), device=cpu, dtype=torch.bool, is_shared=False),
                input_ids: Tensor(shape=torch.Size([4, 50, 600]), device=cpu, dtype=torch.int64, is_shared=False),
                reward: Tensor(shape=torch.Size([4, 50, 1]), device=cpu, dtype=torch.float32, is_shared=False),
                reward_kl: Tensor(shape=torch.Size([4, 50, 1]), device=cpu, dtype=torch.float32, is_shared=False),
                reward_raw: Tensor(shape=torch.Size([4, 50, 1]), device=cpu, dtype=torch.float32, is_shared=False)},
            batch_size=torch.Size([4, 50]),
            device=cpu,
            is_shared=False),
        sample_log_prob: Tensor(shape=torch.Size([4, 50, 1]), device=cpu, dtype=torch.float32, is_shared=False)},
    batch_size=torch.Size([4, 50]),
    device=cpu,
    is_shared=False)

create_rollout_td(batch, generated, log_probs, log_ratio)[源]¶

用於生成資料的 TensorDict 包裝器。

此函式採用批次以及生成的 token，並複製將從從 TorchRL 環境滾動（每個時間步取樣一個 token）中獲得的 tensordict 結構。

引數:

batch (TensorDict) – 包含原始提示的批次資料，以及指示提示右側索引的“rindex”欄位。
generated (torch.Tensor) – 標記化的提示後跟生成的 token。這可以透過呼叫 generate 方法獲得。
log_probs (torch.Tensor) – 生成 token 的對數機率。可以透過呼叫 generate 方法獲得。
log_ratio (torch.Tensor) – 根據生成模型和參考模型生成的 token 的機率對數比。可以透過呼叫 generate 方法獲得。

返回:

"action": 動作序列（生成的 token）
"input_ids": 在每個時間步傳遞給生成模型的 input_ids。
"attention_mask": 在每個時間步傳遞給生成模型的 attention_masks。
"sample_log_prob": 生成期間每個 token 的對數機率
("next", "input_ids"): 生成後的 token 序列。構成用於生成下一個 token 的輸入的一部分。
("next", "attention_mask"): 在 token 生成後更新的 attention_mask。在下一個時間步傳遞給生成模型。
("next", "terminated"): 布林陣列，指示是否已達到終端狀態（因為生成了 EOS token 或因為已達到 token 限制）。
("next", "done"): 布林陣列，指示是否已達到最終狀態。目前是 "terminated" 的副本。
("next", "reward"): 在每個時間步獲得的獎勵。
("next", "reward_raw"): 來自獎勵模型的原始獎勵，不包括 KL 項。這主要用於除錯和日誌記錄，不用於訓練。
("next", "reward_kl"): 來自獎勵的 KL 項。這主要用於除錯和日誌記錄，不用於訓練。

返回型別:

具有以下鍵的 TensorDict

generate(batch: PromptData, generation_config=None)[源]¶

從資料收集器取樣的批次資料生成 token 序列。

引數:

batch (PromptData) – 要使用的資料。必須具有 input_ids 和 prompt_rindex 欄位。
generation_config (GenerationConfig, optional) – 呼叫 generate 的配置。

返回:

一個 [B x (Ti +To)] 整數（token）序列，: 其中 Ti 是輸入序列的長度，To 是生成序列的長度。

log_probs_gen: 生成的 token 的對數機率。log_ratio: 生成模型

和凍結模型之間的機率對數比。

返回型別:

generated (torch.Tensor)

static logprobs_of_labels(logits, labels)[源]¶

標籤的對數機率。

這些是從 logits 計算的。標籤（token id）用於沿相關維度索引 logits。

RolloutFromModel¶

文件

教程

資源