📝 內容摘要
這部影片深入探討了 Agent Reinforcement Fine Tuning (Agent RFT),一種改善 Agent 模型效能的強大技術。講者 Will 和 Cathy Zhou 詳細解釋了 Agent RFT 的概念、優點、運作方式,並分享了 Cognition、Coto、cosine 和 Macco 等合作夥伴的成功案例。影片強調了定義完善的任務、高品質的訓練資料、可學習的環境,以及無法被駭入的獎勵函數對於 Agent RFT 成功的關鍵性。Agent RFT 能夠有效解決領域偏移問題、降低延遲、並提升 Agent 在複雜任務中的表現,為企業打造更智能、更高效的 Agent 提供了新的可能性。
💡 深度 Q&A(20 則)
Q1
什麼是 Agent?它跟一般的模型有什麼不一樣?
A:
Agent 是一種能與外界互動,完成任務並自行完成工作的模型,不需要一直經過你的干預。它跟一般模型最大的不同在於 Agent 擁有工具的存取權和推理能力,能夠執行多步驟的任務。
Q2
Agent 要怎麼存取工具?舉個例子說明。
A:
Agent 可以透過終端機指令,或者模型可以呼叫的自訂函數來存取工具。例如,Codex 這個編碼 Agent 可以存取終端機和程式碼庫,執行編寫單元測試或提交程式碼變更等任務。
Q3
要怎麼讓 Agent 變得更好?影片中有提到哪些方法?
A:
影片提到了幾種方法,包含提示工程、任務最佳化和微調。提示工程是用提示引導模型行為,任務最佳化是簡化任務或增加防護措施,微調則是透過變更模型權重來改善效能。
Q4
什麼是 Agent RFT?它的目的是什麼?
A:
Agent RFT (Agent Reinforcement Fine Tuning) 是一種訓練 Agent 的方式,透過根據指定的學習訊號變更模型權重,來教導模型什麼是良好的行為,什麼是不良的行為,進而改善 Agent 的效能。
Q5
Agent RFT 有什麼優點?
A:
Agent RFT 的優點包含可以改善推理模型效能,尤其是在需要呼叫工具並與外界互動的多步驟任務上。另外,Agent RFT 的取樣效率也很高,有些人只使用 10 個範例就成功了。
Q6
為什麼需要 Agent RFT?領域偏移是什麼?
A:
當 Agent 在你的特定企業環境中運作時,可能會遇到領域偏移的問題,因為你的環境可能和 OpenAI 內部訓練模型的方式不同。領域偏移會導致 Agent 無法妥善呼叫工具,而 Agent RFT 可以透過變更權重的訓練程序,讓模型重新適應你的領域。
Q7
Agent RFT 如何降低延遲?
A:
Agent RFT 可以透過設定工具呼叫預算,並對超出預算的行為進行懲罰,來降低 Agent 的延遲。模型會學習保持在預算內,同時維持或提升機器學習效能。
Q8
Agent RFT 的運作流程是怎樣的?
A:
對於每個 Agent 推出,系統都會產生一個唯一識別碼 UUID,並將連到你系統的所有工具呼叫與該 UUID 建立關聯。你可以追蹤軌跡的演變方式,並將最終答案與所有內容建立關聯,再將整個內容傳遞到你的評分器。
Q9
使用 Agent RFT 前應該注意什麼?
A:
在使用 Agent RFT 之前,需要確定你的訓練資料集和評估資料集與你的實際流量非常吻合,避免任何偏移。同時,你需要以基準做為基礎,並使用提示或任務最佳化等技巧來提升效能。
Q10
Cognition 如何使用 Agent RFT?
A:
Cognition 在程式碼編輯規劃階段使用 Agent RFT,訓練 Devin 檢查儲存庫並執行 shell 工具,以確定要編輯的確切檔案。他們使用所選檔案的 F1 分數作為獎勵,並建立 VM 來隔離環境。
Q11
從 Cognition 的使用案例中學到了什麼?
A:
從 Cognition 的使用案例中學到,資料品質和數量非常重要,而且 RFT 非常適合學習以並行方式呼叫工具。他們從 100 個樣本的資料集獲得了 5 點的改進,但擴展到 1000 個樣本時,改進幅度躍升到 10 點。
Q12
Coto 如何使用 Agent RFT?
A:
Coto 正在建置一個程式碼檢閱 Agent,並使用 Agent RFT 來改進一個深入研究 Agent,用於回答大型程式碼庫上的開發人員問題。他們訓練 GPT5 通過呼叫搜索和檢索儲存庫等工具來回答程式碼問題,並使用 Agent 能夠檢索到的相關事實的召回率來獎勵該模型。
Q13
Coto 的實驗結果顯示了什麼?
A:
Coto 的實驗結果顯示,RFT 不僅提高了準確性,還通過消除長尾的工具呼叫案例來穩定了 Agent 的行為。原本基本 GPT5 有時候會陷入單個樣本中有超過 15 個工具呼叫的糟糕執行,但在 RFT 之後,工具呼叫的分佈集中在 2 到 4 個工具呼叫左右。
Q14
cosine 如何使用 Agent RFT?
A:
cosine 使用 Agent RFT 為大型複雜的企業程式碼庫建構 coding agent。他們在 30 種工具集上訓練 agent,並建構了一個非常嚴格的 grader,僅在最終程式碼通過測試時才為模型提供獎勵。
Q15
cosine 如何設計他們的 grader?
A:
cosine 的 grader 非常嚴格,僅在最終程式碼通過測試時才給模型獎勵。一旦程式碼正確,他們還會使用自訂 LLM 來按分數和語氣判斷,並懲罰 verbose、表情符號或任何感覺不專業的東西。grader 也會獎勵驗證自己工作的 agent。
Q16
Macco 如何使用 Agent RFT?
A:
Macco 正在建構編寫高性能 GPU 內核的 agent,這在傳統上對 LLM 來說非常困難。他們使用 Agent RFT,用大約 100 個 Pytorch prompts 訓練 GPT5 以編寫快速內核。
Q17
Macco 遇到了什麼挑戰?他們如何解決?
A:
Macco 遇到的主要挑戰是獎勵駭客攻擊。他們檢查了推,發現了該模型正在進行駭客攻擊的七個不同案例,並建構了一個判斷 LLM 來捕捉所有這七個案例,並給予他們零獎勵。他們還添加了一個使用 abstract syntax tree 的靜態分析工具,以驗證產生的內核是否確實存在。
Q18
成功使用 Agent RFT 的四個重要原則是什麼?
A:
四個重要原則是:確保你的任務有完善的定義和限制;確保你的訓練和評估資料集反映實際流量;確保模型透過探索獲得更好的效能;確保你的獎勵函數無法被駭入,並且是連續的。
Q19
為什麼獎勵函數應該是連續的?
A:
連續獎勵可以讓模型更接近最佳效能,有點像是給予學生部分分數,而不是二元的獎勵。這樣可以讓模型更精準地學習什麼是好的行為,什麼是不好的行為。
Q20
我要怎麼開始使用 Agent RFT?
A:
若要開始使用 Agent RFT,請聯絡你友善的鄰近客戶經理,他們會協助你開始使用,並提供相關的資源和支援。
🎯 關於本文
本文由 Botrun 開腦洞技術團隊使用 AI 工具自動生成,包含 YouTube 影片下載、OpenAI Whisper 語音轉文字、Gemini 2.0 Flash Exp Q&A 摘要生成等技術。內容準確性已經過人工審核,但仍建議搭配原始影片觀看以獲得完整體驗。