John Carmack 最近在其研究中探討了流模型在價值基強化學習中的應用,特別是如何通過流匹配訓練批評者來提升計算效率。他指出,儘管價值基強化學習理論上是一個回歸問題,使用均方誤差損失最為自然,但單一激活的神經網絡可能並不是理想的價值函數近似器。當前的許多模型使用類別值表示來解決訓練問題,而Carmack提議通過約八步的流模型生成類別值,這樣能更容易地表示複雜的映射。這種從噪音中提煉的方式對於解決災難性遺忘問題具有吸引力。Carmack指出,若在學習某項任務後轉向其他任務,原有任務的表現可能會大幅下降,流模型的去噪能力可能有助於改善這一情況。此外,他提到流模型在每一步都能獲得監督,這與傳統深度模型僅在最後一步獲得監督的方式不同。Carmack還討論了流模型與其他模型的比較,強調了其在某些基準測試中的優越性。