在最新的分享中,科技KOL马东锡探讨了Golden Goose在RLVR(Reinforcement Learning with Verified Results)领域的创新方法。他表示,这种方法与预训练的掩码语言模型(MLM)有相似之处,无论是MLM还是下一个标记预测(next-token prediction),都可以将匹配语料库视为一种可验证的任务。Golden Goose利用这一思想,以简洁且低成本的方式构建了RLVR数据,强调最廉价的验证器就在语料库之中。这一创新方法为RLVR的研究提供了新的视角,展示了如何有效利用现有资源来提升验证过程的效率。