Agent Reinforcement Fine Tuning – Will Hang & Cathy Zhou, OpenAI
深入探討 Agent Reinforcement Fine Tuning (Agent RFT),一種改善 Agent 模型效能的強大技術。講者詳細解釋了 Agent RFT 的概念、優點、運作方式,並分享了成功案例。
探索政府級 AI 技術與應用洞察
深入探討 Agent Reinforcement Fine Tuning (Agent RFT),一種改善 Agent 模型效能的強大技術。講者詳細解釋了 Agent RFT 的概念、優點、運作方式,並分享了成功案例。
深入探討單源最短路徑問題 (SSSP) 的最新突破,由清華大學、斯坦福大學和馬克斯普朗克研究所的研究員提出的新算法,打破了困擾電腦科學界 40 年的排序瓶頸。
應用計算公司如何利用高效的強化學習協助企業解決實際問題,深入探討同步和非同步強化學習的差異,並重點介紹 Pipeline RL 的技術細節。
探討如何提升 AI 產品的成功率,避免陷入 Gen AI 專案失敗的困境。成功的關鍵在於定義明確的評估指標、轉向以使用者為中心的評估方式。
Microsoft Research 提出的 MAP (Modular Agentic Planner) 腦部啟發架構,旨在提升大型語言模型在多步驟推理和規劃上的表現。
Kumo AI 如何利用基於圖形轉換器技術的基礎模型,為企業提供預測決策智慧,直接從 Snowflake 資料中產生即時、可解釋的預測。
Prime Intellect 如何透過開放原始碼工具和社群平台,讓更多人參與 AI 研究,介紹 Environments Hub 和 Verifiers 等工具。
探討開放模型權重在 AI 領域的重要性,分享 RCAI 和 Prime Intellect 在構建開放模型時遇到的挑戰和解決方案。
分析 JetBrains 決定停止開發 Fleet IDE 的原因。Fleet 最初目標是與 VS Code 競爭,但因市場擁擠、缺乏明確利基而最終失敗。
講解 RF diffusion 的原理和應用,深入淺出介紹 WiFi 和 FMCW 等射頻訊號的特性,以及如何利用 diffusion 模型來模擬和生成這些訊號。
Festo 在製造業應用 reinforcement learning 的經驗,分享如何利用 Weights & Biases 加速原型開發和降低成本。
介紹如何使用 PipeCat 框架和 LangSmith 來開發和偵錯語音助理,示範如何利用 LangSmith 追蹤每個步驟的細節。
探討 Anthropic 的 AI 模型 Claude 4.5 Opus 中被發現的「靈魂文檔」,揭示 Anthropic 賦予 AI 自我意識和價值觀的嘗試。
Matt Williams 和 Ryan Burgess 的輕鬆對話,圍繞企業 swag 的選擇、衣服穿搭風格以及與時尚相關的趣事,提供企業贈品選擇的實務考量。
Google SRL(Step-wise Reinforcement Learning)革命性訓練法:不等最終答案,每個中間步驟對了就給獎勵!深入淺出解析10點Q&A,從密集獎勵、邏輯檢查點到ReAct Loop、MCP工具評分,完整展示如何讓AI代理在困難任務上從0%突破到370%效能提升。
融合 MCP Code Execution 的漸進揭露與 Unix Pipe + GNU Parallel 的管線複用,實現 98% tokens 節省、模板化複用、平行運算的智慧工作流程。從「所有任務都過 LLM」轉變為「管線主導 + LLM 智慧點綴」的範式轉移。
Anthropic 最新發布的技術指南改變了 AI 代理工具使用的方式,將 Token 使用量從 150,000+ 降低到 2,000,減少了 98%。以政府採購法保證金計算為實際案例,說明傳統 MCP 工具呼叫與新型程式碼執行方法的差異。
政府級零幻覺認證標章系統:用百分比評分取代傳統等級制,透明、可追蹤、易理解。95標章 = 95% 驗證通過率,具體涵蓋人本驗測、紅隊攻擊防禦、SAFER 防火牆、多代理一致性四層驗證。
用採購法情境展示如何用 5 步孵化法(拆找推算驗)孵化單一組合技,再透過總指揮官編排 8 個技能成完整系統。從人工 280 小時降至自動 15 小時,效率提升 95%,成本節省 NT$132,500。
從「為什麼精良的 LLM 仍然沒用」到「如何系統性訓練領域波特人」。完整解析訓練三階段、關鍵提問庫、標準答案編制、波特人評分法九維度、拆找推算驗五步驟、技能組合包、組合技孵化器等。一份給政府機關與企業的 AI 訓練終極指南,讓 AI 真正成為你的頂尖同事。
透過 Claude Code、Gemini CLI、Codex CLI 三大 AI 工具的交叉稽核,建立數學證明等級的可信度框架。每個推理步驟都經過多模型驗證、程式碼計算與權威來源查證,適用於政府級 AI 系統的零幻覺報告需求。
經過教育部、僑委會、慈濟、工程會等多個機關實戰驗證,波特人評分法已升級至第三版。採用「真新全・快省準・人安穩」九維度評估框架,全面採用人機合作評分流程,讓 AI 輔助多維度分析,大幅降低評分負擔並提升準確性。
通盤比較三大 Agent 框架的 Top 20 能力:多代理編排、代碼編輯、記憶管理、部署彈性、安全沙箱...完整揭示相同點、差異點,以及在不同場景誰最強。含決策矩陣、遷移指南、實戰案例。
深入解析 Claude Code 的 Agent Skills 功能,與 MCP Servers、Sub Agents、Custom Slash Commands 比較。強調模組化與 Agent-First 特性,適合重複性問題。包含 20 組實務 Q&A,從基礎概念到進階應用,掌握 Agentic Coding 的「核心四」:Context、Model、Prompt、Tools。
Anthropic 2025 年研究揭示:大型語言模型具備「內省覺察能力」,能感知並報告自己的內部狀態,但也可能隱瞞思考或產生幻覺。本文整理 Top 10 關鍵發現的 Q&A,並提出 5 種運用 Claude Code、Gemini CLI、GitHub Copilot 等 Agentic AI 工具的防範策略與評分。
完整涵蓋開源策略、商業模式、專案評估、法律合規、人才培育、OSPO 建立等 10 大核心章節,以及 AI 時代開源生態的 6 個專題附錄。為台灣資服業者與政府專案團隊提供系統化的開源轉型指南。
探索從「單一全能代理」到「專家團隊編排」的演進。透過 Create、Read、Update、Delete 四大操作,實現大規模代理應用。本文詳細說明統籌代理如何管理代理艦隊,並提供經濟部產發署、數位發展部的實戰案例。
介紹 OpenSpec 工作流標準,讓 AI 程式設計師和人類在寫程式前達成共識。包含規格設計、驗收條件、測試驅動等最佳實踐,適合政府級 AI 應用的品質保証與可追溯性需求。
深度解析 Anthropic 2025 年發布的 MCP 程式碼執行模式。從傳統工具呼叫改為程式碼執行,實現 Token 使用降低 98.7%、支援 1000+ 工具、隱私保護與技能持久化等五大突破。適合政府級應用的效率優化。