DreamerV3模型在最新的研究中被應用於超過150項多樣化的任務,並在許多任務中取得了最先進的成績,特別是在Minecraft中挖掘鑽石的挑戰。儘管有媒體報導稱「AI解決了Minecraft」,這一說法卻存在誤導性。實際上,該模型經歷了3000萬步的環境模擬,並在17天內不間斷運行,最終成功挖掘出一顆鑽石。與Atari遊戲不同,Minecraft的界面經過修改,直接向模型呈現了庫存和統計數據,並使用了類別動作空間,避免了傳統的操作方式。挖掘過程被調整為瞬時破壞,以適應Dreamer的隨機行為策略,這使得其難以長時間按住按鈕。此外,跳躍動作也進行了類似的調整。這是首次強化學習代理在未使用人類玩家模仿學習的情況下取得如此進展,並在其他基準測試中也實現了顯著的改進。這些改進主要源於工程上的努力,而非全新的架構。研究還指出,模型的可擴展性從1200萬參數提升至4億參數,並且重放比率從1提升至64倍。研究中使用的術語也更接近其他強化學習文獻,並對模型的訓練過程進行了多項優化,以提高性能。