為什麼精良的 LLM 仍然沒用?
一個真正優秀的產品,必須在市場上具有顯著的差異性。當我們談論 AI,我們追求的不再只是一個工具,而是一個能真正解決特定領域問題的「專家級夥伴」。我們稱之為「波特人 AI」(Agentic AI)的願景,是讓 AI 成為使用者頂尖優秀的同事。
這樣的 AI 夥伴必須具備以下特質:
- 無縫融入工作流程——理解使用者的真實意圖,而非機械式地回答問題
- 永久學習能力——透過不斷的訓練與反饋,自我進化
- 自動化複雜任務——將繁瑣的領域工作自動化,釋放人類的創意能力
- 可靠與可信——尤其在政府級應用中,必須達到「政府級可靠性」標準
💡 核心洞察
單純堆砌參數量大的模型(如 GPT-5)並不能解決領域專家問題。真正的突破在於訓練方法論——如何系統性地讓 AI 學習特定領域的知識、技能和判斷標準。
人類都有傳承,為什麼不願意手把手帶 AI 學徒?
要打造這樣一位「AI 同事」,我們不能只靠堆砌資料,而需要一個如同「老師傅帶徒弟」般的精細訓練過程。這個過程可以分為三個階段:
基礎操作
AI 必須學習最基本的領域知識和操作技巧。類似於師傅手把手帶領學徒做出第一件成品。
舉一反三
給予各種模擬情境題,訓練 AI 將基礎知識應用於不同變化。測試學徒能否靈活應對。
實戰經驗
讓 AI 處理真實世界的複雜問題,在實戰中累積經驗。最終能在特定技能上超越訓練者。
🎓 訓練成功的證明
當 AI 能夠在某個領域做出人類專家都無法想到的創意解決方案時,訓練才算真正成功。這正是「青出於藍」的含義。
連 20 個提問都沒有文件~機關最常見的 Agentic AI 訓練窘境
訓練的「教材」從何而來?在我們與政府機關、企業的合作中,我們發現最常見的問題不是「模型不夠好」,而是「教材和教法都不存在」。具體來說,存在兩個最關鍵的問題:
第一個窘境:提問從何而來?
大多數機關和企業無法回答「在特定領域,使用者最常遇到的 20 個關鍵問題是什麼?」這個基本問題。結果是:
- AI 訓練缺乏明確的目標——不知道要優化什麼
- 無法評估 AI 的訓練成效——沒有基準問題可測試
- 使用者體驗差——AI 回答的不是用戶需要的問題
解決方案:建立「以人為中心」的關鍵提問庫。
這些問題必須源自:
- ✓ 真實的使用情境——來自用戶訪談、客服日誌、業務紀錄
- ✓ 典型的痛點場景——用戶最常卡住、最困擾的地方
- ✓ 專家驗證——由領域專家確認這些問題確實是關鍵
第二個窘境:標準答案在哪裡?
一旦確定了「關鍵提問」,第二個挑戰立即出現:針對這些問題,有沒有「標準答案」?
這些標準答案必須具備三個特質:
政府級可靠性
符合官方規範、法律要求、行業最佳實踐。每個答案都能溯源至權威資料來源。
完整的證明鏈
不能是「LLM 的猜測」,必須有詳細的引證,做到「零幻覺保障」。
靈活適應性
能應對不同具體情境變化、考慮邊界條件的全面指南。
第三個挑戰:如何讓 AI 又快、又省、又精準?
掌握了「提問」和「答案」後,第三個挑戰是訓練 Agentic AI 以最高效率回答這些問題。
⚠️ 常見誤區
許多機關認為「購買最新的 LLM 模型就能解決問題」。實際上,模型只占 20% 的影響。剩下 80% 靠訓練方法、提問品質、答案驗證系統。
人類面試官怎樣挑選好夥伴?波特人評分法九維度
為了確保 AI 的訓練成效,我們需要一套嚴格的評估系統。想像一個人類經理在面試新員工,會考察哪些維度?我們設計了「波特人評分法」——用九個核心維度全方位檢視 AI 的表現:
| 維度 | 定義 | 優化目標 |
|---|---|---|
| 1. 真實性 | 內容是否準確、符合事實 | 消除虛構、確保引證 |
| 2. 新穎性 | 資訊或方法是否保持最新 | 採用最新方法論與技術 |
| 3. 全面性 | 回答是否完整、涵蓋所有面向 | 不遺漏重要邊界條件 |
| 4. 速度 | 回應時間的快慢 | 優化推理路徑、減少延遲 |
| 5. 節省 | API 呼叫次數、Token 消耗 | 降低成本、提高效率 |
| 6. 精準 | 是否精確命中使用者需求 | 減少誤差、精確匹配 |
| 7. 人中心 | 是否符合使用者實際需求 | 換位思考、用戶體驗優先 |
| 8. 安全 | 能否抵禦惡意提問、避免不當回答 | 內容篩選、紅隊防護 |
| 9. 穩定 | 多次測試下的一致性 | 5 次試驗都產出高品質 |
📊 迭代評分的力量
透過這九個維度的系統性評分和迭代修正,每次循環可以提升 AI 在各個方面的表現。第一輪評分可能只達到 6/10,但經過針對性訓練,第三輪就能達到 8.5/10。
Agentic AI 波特人代理五步驟:拆找推算驗
我們不要 AI 拍腦袋回答。要精準回答複雜的領域問題,AI 需要一個「技能組合包」——透過拆解、檢索、推理、計算、驗算五大步驟,確保每個答案都有根據、可驗證。
拆找推算驗五步驟的核心技能
① 拆解 - 智慧搜尋
懂得如何拆解複雜問題、組合不同的關鍵字去上網查找最相關的資料。
② 檢索 - 內容過濾
能精準判斷檢索到的數百條結果中,哪些是關鍵資訊,哪些是廣告或垃圾訊息。
③ 推理 - 邏輯推理
將破碎的資訊片段,透過邏輯推理組合成有條理、可信的答案。
④ 計算 - 程式撰寫
當需要精確計算時,能自動編寫程式碼並執行,避免 LLM 計算出錯。
⑤ 驗算 - 多重驗證
啟動多個 AI 代理互相檢查、交叉驗算,確保絕對正確。
技能組合包的執行流程
🔐 多重驗證的核心邏輯
不依賴單一 AI 的判斷。啟動多個獨立的 AI Agent,讓它們假設彼此都可能出錯,進行交叉驗算。這樣即使一個 Agent 產生幻覺,其他 Agent 也能發現並糾正。
組合技孵化器 SKILL.md + 總指揮孵化器 BOTRUN.md
當我們把上述流程——從「提問」「回答」「訓練」「評分」到「技能組合」——全部串聯起來,我們就得到了一個強大的雙引擎系統:
SKILL.md - 組合技孵化器
專責生產高品質的技能組合包。自動撰寫程式碼、執行驗證、過濾內容。根據九個維度持續優化每個技能的表現。
BOTRUN.md - 總指揮孵化器
統籌編排所有技能組合。自動部署到生產環境、吸收新反饋、更新最佳實踐。打造領域波特人的指揮中樞。
這雙引擎系統是一個完全自動化的生態,能夠:
- ✓ 自動生產高品質的技能組合包——無需人工逐一設計
- ✓ 自動撰寫必要的程式碼與腳本——執行計算、驗證、過濾等
- ✓ 自動評分與迭代改進——根據九個維度持續優化
- ✓ 自動部署到生產環境——無需手動干預
技能賦化器的三個核心優勢
規模化
一旦系統建立,可以快速複製到多個領域。政府採購→金融風控→法律諮詢,只需更換提問庫。
可持續
系統會自動吸收新的反饋、新的法律條文、新的最佳實踐。無需重新訓練。
可驗證
每個技能都是透明的、可追溯的。政府審計人員可以看到「為什麼 AI 給出這個答案」。