在最近的分享中,John Carmack 討論了一篇名為《謹慎權重衰減》的研究,該研究探討了一個簡單的概念:在優化過程中,當權重的移動方向與當前優化步驟相反時,不應該應用權重衰減。具體來說,當優化步驟使權重遠離零時,權重衰減不應該作用;而當步驟朝向零時,則應加速衰減。研究團隊在多種優化器和模型上進行了約 20,000 小時的測試,發現這一策略幾乎總是能帶來適度的改善,且無需改變任何超參數。Carmack 表示,目前他的模型大多數參數使用權重規範,但仍有一些使用傳統的權重衰減。他的初步測試顯示這一新方法似乎帶來了微小的改善,但他需要進行更多的實驗來確認其有效性。此外,他還提出了兩個可能的改進方向,包括使用當前梯度進行掩蔽,及在步驟朝向零時增大學習率,以探索不同的學習動態。