在最新的研究中,John Carmack 介紹了一種創新的強化學習算法,該算法利用通用的 LSTM 元網絡來取代傳統的目標生成方法,如策略梯度和 TD-lambda。這種元網絡能夠處理環境數據和代理的預測向量,並生成更高效的學習目標。經過大量訓練後,元網絡可被固定使用,並在多個環境中表現出色,顯示了優異的遷移學習能力。
該研究強調,元網絡對主代理網絡架構不具依賴性,只要輸出正確的向量塊,元網絡便能生成相應的目標。此外,研究中提到的觀察條件預測和行動條件預測類似於傳統的 V 和 Q 函數,但具備更高的維度。研究還指出,通過引入額外的 Q 和 P 輸出向量,雖然這些輔助任務不直接影響策略學習,但能提升代理的性能約 10%。
值得注意的是,這項研究中所使用的 LSTM 在效率上優於變壓器,並且在訓練過程中採用了不尋常的監督學習風格的熱身和餘弦衰減學習率。Google 已經就這項工作的某些方面提交了專利申請,顯示出其潛在的商業價值。