Lior Alexander 評析 Windsurf 團隊的創新：未來基準測試的方向

Windsurf 團隊近期的工作引起了科技界的廣泛關注，並被認為可能會改變基準測試的未來。該團隊強調，模型在實際代碼庫、現實限制和上下文中運行時的表現，與靜態測試所得到的結果有著顯著的差異。靜態測試無法全面反映模型在真實環境中的表現，因此需要新的測試方法。Windsurf 提出的方案是讓用戶在自己的工作流程中比較不同模型的表現，這樣可以生成基準測試所無法捕捉的數據。這一方法不僅能夠提供更真實的性能評估，還可能推動基準測試的進一步發展。