John Carmack 深入探討自我監督學習與內部表示的預測

在最新的討論中,John Carmack 分享了他對自我監督學習的看法,特別是針對圖像的聯合嵌入預測架構。Carmack 表示,他基本同意重要的預測應該集中在內部表示而非像素上,這使得生成模型在某些任務中可能顯得低效或不必要。他認為,內部預測應該在更細緻的層面上進行,例如在小柱或神經層級,並且需要更多的時間成分,而不僅僅是局部遮罩。自我監督訓練能在大型數據集上進行,無需預先知道模型將面臨的問題,僅僅是從數據中累積知識。隨後,可以在輸出上訓練簡單的線性分類器,並獲得相當不錯的表現。Carmack 指出,冷凍的自我監督模型上的最佳線性探測器表現不如端到端訓練的分類器,但相同的自我監督模型卻能同時適用於多個任務。這篇論文還提到,與 JEPA 相比,基於不變性的訓練方法在維持表示相似性的情況下,對圖像的增強處理會受到研究者偏見的影響,這使得其在音頻或文本等其他模態中無法轉移。Carmack 也注意到,JEPA 對所執行的遮罩非常敏感,這在他看來並無太大區別。此外,他指出,目標編碼器與 DQN 強化學習網絡中的目標模型現代公式相似,但在這裡其目的更為根本,即防止模型將表示簡化為可預測的形式。這些觀點顯示了自我監督學習的複雜性及其在不同任務中的應用潛力。

來源:https://x.com/ID_AA_Carmack/status/2010887014967546285


Posted

in

by