John Carmack 分享研究計畫,探索自動回歸模型中的層次強化學習

知名科技專家John Carmack近日在社交媒體上分享了他的計畫,表示將開始每週至少瀏覽一篇他收藏的研究論文,以便更深入了解當前的科技議題。他提到了一篇名為《2025: Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning》的研究,該研究由Google團隊進行,探討了在強化學習中如何有效設定層次化的目標。研究中提到的“層次目標問題”以“手的抽動需要多長時間才能贏得一場棋賽?”作為引入,顯示了在強化學習中面臨的挑戰。研究利用了一個模擬環境,要求模型在兩個層次上進行規劃,並提出了一種新的方法來學習高層次的行為目標。儘管該研究的初步結果顯示成功率仍不理想,但Carmack對未來在Atari等環境中的應用表示期待,認為這將有助於進一步探索自由形式的選項學習。

來源:https://x.com/ID_AA_Carmack/status/2009406333267923007


Posted

in

by