MIT與Google研究團隊揭示多語言大模型的擴展規律

MIT與Google的研究團隊最近針對多語言模型進行了深入研究,訓練了774個模型,涵蓋從1000萬到80億參數,並涉及400多種訓練語言及48種評估語言。研究團隊提出了名為ATLAS的自適應遷移擴展規律,核心思想是拆分數據來源,分為目標語言數據、正向遷移語言數據及其他語言數據。這一方法在預測未見過的模型規模、數據量和語言組合時,R²指標從0.64提升至0.82。

此外,研究團隊還製作了一張38×38的語言遷移矩陣,分析了1444個語言對之間的遷移效果。結果顯示,西班牙語、加泰羅尼亞語和葡萄牙語之間存在明顯的正向遷移,而某些語言如乌尔都语和普什图语則在訓練時對其他語言有負面影響。研究指出,語言遷移並非對稱,只有在語言家族和文字系統相同的情況下,遷移效果才較為對稱。

最後,研究還量化了多語言訓練的“詛咒”,發現增加語言數量會導致每種語言的性能下降,並提出了在不同預算下選擇微調或從頭訓練的最佳策略。這些發現對於未來多語言模型的開發具有重要指導意義。

來源:https://x.com/vista8/status/2018539756549034218


Posted

in

by