一項新研究挑戰了當前語言模型普遍遵循的逐字預測規則,提出了一種新的方法來提高生成效率。根據研究,這種新方法能將生成步驟減少四倍,並使訓練計算需求降低44%。
該研究指出,傳統的逐字預測存在瓶頸,而新方法CALM則用向量預測取代了逐字猜測。每一步預測一個連續向量,該向量能夠表示多個標記,這樣一來,模型在每一步的操作是基於概念而非單一符號。具體來說,一個向量可編碼約四個標記,序列長度因此減少四倍,注意力和取樣的需求也隨之縮小。
此外,這種新架構還移除了離散限制,利用自動編碼器以99.9%的準確率壓縮和重建文本。它採用基於能量的Transformer來一次性預測下一個向量,省略了softmax、詞彙上限和標記取樣的過程。這一變革不僅使訓練和推理速度更快,還提升了每FLOP的性能,並引入了一種新的評估指標來取代困惑度。如果這一方法能夠擴展,基於標記的語言模型將成為低效的基準。