John Carmack 探討簡單模型架構在強化學習中的應用

John Carmack 最近分享了一篇與強化學習相關的研究,探討大型視覺模型在價值基於強化學習中的表現。他指出,儘管這些模型在傳統基準測試中表現優異,但在實際應用中,像 ConvNeXT 這樣的高端模型卻未能超越他所設計的簡單七層 MaxPooled 網絡,儘管後者的參數較少且運行速度較快。Carmack 強調,使用視覺變壓器進行價值回歸的嘗試也未能取得良好效果。該研究提出了一種極為簡單的模型架構,雖然不及最複雜的模型,但在基準測試中卻超過了基線。研究指出,像 ViT 和 MLP-Mixer 這類模型雖然結構不同,但在設計上有一個共同點,即在頂層進行“patchifying”,然後在所有層中以等方位的方式運作。Carmack 認為,這種等方位的特性是模型成功的關鍵,而不重疊的補丁則只是細節。他還提出,對於更深的網絡,重新組織殘差結構可能會有所幫助。這些想法讓他在閱讀後立即開始了實驗,感到十分滿意。

來源:https://x.com/ID_AA_Carmack/status/2011262235532841310


Posted

in

by