John Carmack探討小批量訓練對語言模型的影響

在最新的研究中,John Carmack探討了小批量訓練在語言模型中的效果,指出其可能與大批量訓練表現相當,甚至更佳。他提到,以往的研究顯示小批量訓練在每個樣本的表現較差,但他認為這一結論僅在未調整Adam優化器的beta2參數時成立。若能適當調整,則小批量訓練的效果應可與大批量訓練相匹敵。Carmack對於人們推薦進行梯度累積的做法表示驚訝,認為直接進行步伐更新應更為有效。

他提出的調整規則是:在改變批量大小時,應將現有的beta2提升至新批量大小與舊批量大小的冪次。隨著批量大小的減小,beta2會接近1.0。研究還發現,小批量訓練對學習率和beta等超參數的穩定性更高,表現出更大的接近最佳性能的區域。相對於大批量訓練的尖峰最優,這一結果令人驚訝。此外,當批量大小為1時,即使是動量也變得不必要,簡單的SGD可以達到Adam在大批量時的表現。雖然他們在批量為1的實驗中將權重衰減設置為零,但認為這可能是錯誤的,因為適度的衰減有助於減少“噪音特徵”的影響。Carmack指出,使用狀態無關的優化器可節省75%的內存,這使得對整個模型進行微調變得更為可行。總的來說,雖然仍需使用足夠大的批量以充分利用GPU,但在此基礎上調整beta2應能達到與大批量訓練相當的最終模型性能。

來源:https://x.com/ID_AA_Carmack/status/2011618394613957083


Posted

in

by