歡迎閱讀 TorchCodec 文件!¶
TorchCodec 是一個 Python 庫,用於在 CPU 和 CUDA GPU 上將影片和音訊資料解碼為 PyTorch 張量。它還支援音訊編碼,影片編碼功能也即將推出!它的目標是快速、易於使用,並與 PyTorch 生態系統良好整合。如果您想使用 PyTorch 在影片和音訊上訓練機器學習模型,TorchCodec 可以幫您將這些媒體檔案轉換為資料。
我們透過以下方式實現這些功能:
遵循 Python 和 PyTorch 慣例的 Pythonic API。
依賴 FFmpeg 進行解碼/編碼。TorchCodec 使用您已安裝的 FFmpeg 版本。FFmpeg 是一個成熟的庫,覆蓋範圍廣,在大多數系統上都可用。然而,它並不易於使用。TorchCodec 抽象了 FFmpeg 的複雜性,以確保其被正確高效地使用。
將資料作為 PyTorch 張量返回,可直接送入 PyTorch 變換或用於訓練模型。
安裝說明¶
如何安裝 TorchCodec
解碼¶
一個簡單的影片解碼示例
一個簡單的音訊解碼示例
一個演示 CUDA GPU 解碼的簡單示例
如何高效地從雲端解碼影片
如何使用多個程序或執行緒解碼影片。
如何從影片中取樣規則和隨機的片段
編碼¶
如何編碼音訊樣本