組合技孵化器：培育領域波特人

1

為什麼精良的 LLM 仍然沒用？

一個真正優秀的產品，必須在市場上具有顯著的差異性。當我們談論 AI，我們追求的不再只是一個工具，而是一個能真正解決特定領域問題的「專家級夥伴」。我們稱之為「波特人 AI」（Agentic AI）的願景，是讓 AI 成為使用者頂尖優秀的同事。

這樣的 AI 夥伴必須具備以下特質：

無縫融入工作流程——理解使用者的真實意圖，而非機械式地回答問題
永久學習能力——透過不斷的訓練與反饋，自我進化
自動化複雜任務——將繁瑣的領域工作自動化，釋放人類的創意能力
可靠與可信——尤其在政府級應用中，必須達到「政府級可靠性」標準

💡 核心洞察

單純堆砌參數量大的模型（如 GPT-5）並不能解決領域專家問題。真正的突破在於訓練方法論——如何系統性地讓 AI 學習特定領域的知識、技能和判斷標準。

2

人類都有傳承，為什麼不願意手把手帶 AI 學徒？

要打造這樣一位「AI 同事」，我們不能只靠堆砌資料，而需要一個如同「老師傅帶徒弟」般的精細訓練過程。這個過程可以分為三個階段：

基礎操作

AI 必須學習最基本的領域知識和操作技巧。類似於師傅手把手帶領學徒做出第一件成品。

舉一反三

給予各種模擬情境題，訓練 AI 將基礎知識應用於不同變化。測試學徒能否靈活應對。

實戰經驗

讓 AI 處理真實世界的複雜問題，在實戰中累積經驗。最終能在特定技能上超越訓練者。

🎓 訓練成功的證明

當 AI 能夠在某個領域做出人類專家都無法想到的創意解決方案時，訓練才算真正成功。這正是「青出於藍」的含義。

3

連 20 個提問都沒有文件～機關最常見的 Agentic AI 訓練窘境

訓練的「教材」從何而來？在我們與政府機關、企業的合作中，我們發現最常見的問題不是「模型不夠好」，而是「教材和教法都不存在」。具體來說，存在兩個最關鍵的問題：

第一個窘境：提問從何而來？

大多數機關和企業無法回答「在特定領域，使用者最常遇到的 20 個關鍵問題是什麼？」這個基本問題。結果是：

AI 訓練缺乏明確的目標——不知道要優化什麼
無法評估 AI 的訓練成效——沒有基準問題可測試
使用者體驗差——AI 回答的不是用戶需要的問題

解決方案：建立「以人為中心」的關鍵提問庫。

這些問題必須源自：

✓ 真實的使用情境——來自用戶訪談、客服日誌、業務紀錄
✓ 典型的痛點場景——用戶最常卡住、最困擾的地方
✓ 專家驗證——由領域專家確認這些問題確實是關鍵

第二個窘境：標準答案在哪裡？

一旦確定了「關鍵提問」，第二個挑戰立即出現：針對這些問題，有沒有「標準答案」？

這些標準答案必須具備三個特質：

政府級可靠性

符合官方規範、法律要求、行業最佳實踐。每個答案都能溯源至權威資料來源。

完整的證明鏈

不能是「LLM 的猜測」，必須有詳細的引證，做到「零幻覺保障」。

靈活適應性

能應對不同具體情境變化、考慮邊界條件的全面指南。

第三個挑戰：如何讓 AI 又快、又省、又精準？

掌握了「提問」和「答案」後，第三個挑戰是訓練 Agentic AI 以最高效率回答這些問題。

⚠️ 常見誤區

許多機關認為「購買最新的 LLM 模型就能解決問題」。實際上，模型只占 20% 的影響。剩下 80% 靠訓練方法、提問品質、答案驗證系統。

4

人類面試官怎樣挑選好夥伴？波特人評分法九維度

為了確保 AI 的訓練成效，我們需要一套嚴格的評估系統。想像一個人類經理在面試新員工，會考察哪些維度？我們設計了「波特人評分法」——用九個核心維度全方位檢視 AI 的表現：

維度	定義	優化目標
1. 真實性	內容是否準確、符合事實	消除虛構、確保引證
2. 新穎性	資訊或方法是否保持最新	採用最新方法論與技術
3. 全面性	回答是否完整、涵蓋所有面向	不遺漏重要邊界條件
4. 速度	回應時間的快慢	優化推理路徑、減少延遲
5. 節省	API 呼叫次數、Token 消耗	降低成本、提高效率
6. 精準	是否精確命中使用者需求	減少誤差、精確匹配
7. 人中心	是否符合使用者實際需求	換位思考、用戶體驗優先
8. 安全	能否抵禦惡意提問、避免不當回答	內容篩選、紅隊防護
9. 穩定	多次測試下的一致性	5 次試驗都產出高品質

📊 迭代評分的力量

透過這九個維度的系統性評分和迭代修正，每次循環可以提升 AI 在各個方面的表現。第一輪評分可能只達到 6/10，但經過針對性訓練，第三輪就能達到 8.5/10。

5

Agentic AI 波特人代理五步驟：拆找推算驗

我們不要 AI 拍腦袋回答。要精準回答複雜的領域問題，AI 需要一個「技能組合包」——透過拆解、檢索、推理、計算、驗算五大步驟，確保每個答案都有根據、可驗證。

拆找推算驗五步驟的核心技能

① 拆解 - 智慧搜尋

懂得如何拆解複雜問題、組合不同的關鍵字去上網查找最相關的資料。

② 檢索 - 內容過濾

能精準判斷檢索到的數百條結果中，哪些是關鍵資訊，哪些是廣告或垃圾訊息。

③ 推理 - 邏輯推理

將破碎的資訊片段，透過邏輯推理組合成有條理、可信的答案。

④ 計算 - 程式撰寫

當需要精確計算時，能自動編寫程式碼並執行，避免 LLM 計算出錯。

⑤ 驗算 - 多重驗證

啟動多個 AI 代理互相檢查、交叉驗算，確保絕對正確。

技能組合包的執行流程

🔐 多重驗證的核心邏輯

不依賴單一 AI 的判斷。啟動多個獨立的 AI Agent，讓它們假設彼此都可能出錯，進行交叉驗算。這樣即使一個 Agent 產生幻覺，其他 Agent 也能發現並糾正。

6

組合技孵化器 SKILL.md + 總指揮孵化器 BOTRUN.md

當我們把上述流程——從「提問」「回答」「訓練」「評分」到「技能組合」——全部串聯起來，我們就得到了一個強大的雙引擎系統：

SKILL.md - 組合技孵化器

專責生產高品質的技能組合包。自動撰寫程式碼、執行驗證、過濾內容。根據九個維度持續優化每個技能的表現。

BOTRUN.md - 總指揮孵化器

統籌編排所有技能組合。自動部署到生產環境、吸收新反饋、更新最佳實踐。打造領域波特人的指揮中樞。

這雙引擎系統是一個完全自動化的生態，能夠：

✓ 自動生產高品質的技能組合包——無需人工逐一設計
✓ 自動撰寫必要的程式碼與腳本——執行計算、驗證、過濾等
✓ 自動評分與迭代改進——根據九個維度持續優化
✓ 自動部署到生產環境——無需手動干預

技能賦化器的三個核心優勢

規模化

一旦系統建立，可以快速複製到多個領域。政府採購→金融風控→法律諮詢，只需更換提問庫。

可持續

系統會自動吸收新的反饋、新的法律條文、新的最佳實踐。無需重新訓練。

可驗證

每個技能都是透明的、可追溯的。政府審計人員可以看到「為什麼 AI 給出這個答案」。