John Carmack 分享 DreamerV2:在 Atari 遊戲中實現突破性成果

在最新的研究中,DreamerV2 模型在 Atari 遊戲中達到了前所未有的表現。相較於其前身 DreamerV1,DreamerV2 針對離散世界模型進行了多項改進,成功在 55 款 Atari 遊戲中實現了最佳成績,並解決了更具挑戰性的 humanoid-walk 連續控制任務。此研究強調了工程實作的重要性,並在附錄中總結了促成性能提升的變更,還列出了多項未能成功的嘗試,這在學術論文中相對少見。研究中使用的輸入為 64×64 的灰階圖像,這些圖像是從常見的 84×84 分辨率縮小而來,顯示出即使在模糊的條件下,模型仍能取得優異的分數。 主要的改進之一是將 VAE 風格的高斯潛變數替換為類別變數,這一變化雖然尚未有明確的理論解釋,但研究者提出了幾種可能的解釋。另一項重要的算法改變是“KL 平衡”,即對先驗和後驗權重使用不同的學習率,這使得預測器的訓練速度快於表示的訓練。研究者還對連續控制與離散 Atari 控制任務的 KL 損失和訓練設置進行了顯著調整。DreamerV2 的改進正則化和動態模型使其能夠去除額外的隨機性,僅依賴於策略進行操作。最後,研究者建議了一種新的評估指標“裁剪記錄平均分數”,這一指標將 Atari 的分數標準化到人類世界紀錄,進一步提升了模型的評價標準。

來源:https://x.com/ID_AA_Carmack/status/2017074523078611204


Posted

in

by