Lior Alexander:350M 參數模型在工具使用上超越大型模型

AWS 研究人員最近在 ToolBench 上進行的一項研究顯示,經過微調的小型模型(350M 參數)在工具使用方面的表現超越了許多大型系統,達到了 77.5% 的通過率。這一研究的關鍵在於專注的訓練方法,該模型專門針對真實的工具調用任務進行訓練,並且沒有使用額外的技巧,僅進行了一次訓練,設定了明確的目標。該模型學會了文件摘要、回答查詢和解釋結構化輸出等任務。研究顯示,專注的訓練方法能夠忽略不相關的行為,並有效執行工具操作。相較之下,較大的系統在同一基準測試中的得分普遍較低,有些甚至低於 30%。這一研究結果的重要性在於,它能降低延遲、降低成本並簡化部署,為在狹窄應用場景中替代大型語言模型提供了可能,特別是在需要重複調用工具的代理應用中。

來源:https://x.com/LiorOnAI/status/2018354175382372503