核心概念
在 LLM 時代,幻覺(Hallucination)是最大的信任危機。模型可能自信地輸出錯誤資訊, 導致下游任務崩潰。零幻覺證明框架透過多個 AI 代理的交叉稽核與工具驗證, 將推理過程提升到數學證明等級的嚴謹度。
⚠️ 單一 AI 的幻覺風險
範例:問 LLM「2 年 6000 萬勞務採購,第 1 年預算 3000 萬,廠商實績門檻應設多少?」
可能回答:24,000,000(錯誤,誤用總預算)、12,000,000(正確)、2,400,000(錯誤,比例錯誤)
問題:單一模型可能條件判斷錯誤、計算失誤或引用錯誤法條,
政府承辦人員若採用錯誤答案,採購程序可能遭撤銷,延誤計畫執行。
三大 AI CLI 工具
Claude Code
- 本地檔案讀寫
- Shell 命令執行
- MCP 整合
- Sonnet 4.5 推理
Gemini CLI
- Google Search 實時資訊
- 1M token 長文本
- 開源擴充系統
- Gemini 2.5 Pro
Codex CLI
- GPT-5 推理引擎
- 沙盒執行環境
- 多模態輸入
- 程式碼生成專精
三個工具各有擅場:Claude 擅長縝密推理、Gemini 擅長實時搜尋、Codex 擅長程式碼生成。 透過交叉驗證,可以消除單一模型的盲點。
零幻覺證明範例:政府採購法情境
問題:某機關勞務採購案,廠商資格實績門檻應如何設定?
📋 案例背景
案件:某機關辦理「資訊機房維運勞務採購案」
契約期間:2 年(履約期間逾 1 年)
總預算:新台幣 60,000,000 元
第 1 年預算:新台幣 30,000,000 元
採購性質:工作內容重複且以提供勞力為主
問題:招標文件應規定「廠商單次契約實績金額不得低於多少元?」
風險:若門檻設定錯誤,可能違反《投標廠商資格與特殊或巨額採購認定標準》,導致採購程序無效
法條查詢:
• 第 5 條第 1 項第 1 款:「單次契約金額不低於招標標的預算金額之五分之二」
• 第 5 條第 3 項:「履約期間逾一年之勞務採購,其以提供勞力為主,且工作內容重複者,
以第一年之預算金額訂定資格條件」
(條文來源:全國法規資料庫)
結論:本案應以第 1 年預算 30,000,000 元為基準,計算五分之二
程式碼:
def calculate_qualification_threshold(
total_budget,
first_year_budget,
duration_years,
is_labor_service=False,
is_repetitive=False
):
"""
計算廠商單次契約實績門檻
參數:
total_budget: 總預算(元)
first_year_budget: 第1年預算(元)
duration_years: 契約年期
is_labor_service: 是否以提供勞力為主
is_repetitive: 工作內容是否重複
"""
# 判斷是否符合「以第1年預算計算」條件
if (duration_years > 1 and is_labor_service and is_repetitive):
base_amount = first_year_budget
reason = "符合第5條第3項:逾1年、勞力為主、內容重複"
else:
base_amount = total_budget
reason = "使用總預算金額"
# 計算五分之二
threshold = base_amount * (2 / 5)
return {
'total_budget': total_budget,
'first_year_budget': first_year_budget,
'base_amount': base_amount,
'threshold': threshold,
'reason': reason
}
# 本案計算
result = calculate_qualification_threshold(
total_budget=60_000_000,
first_year_budget=30_000_000,
duration_years=2,
is_labor_service=True,
is_repetitive=True
)
print(f"總預算: {result['total_budget']:,} 元")
print(f"第1年預算: {result['first_year_budget']:,} 元")
print(f"計算基準: {result['base_amount']:,} 元({result['reason']})")
print(f"實績門檻(五分之二): {result['threshold']:,} 元")
結論:廠商資格門檻 = 12,000,000 元
執行輸出:
搜尋結果:
• 行政院公共工程委員會採購申訴審議判斷相關案例
• 「投標廠商資格與特殊或巨額採購認定標準」立法說明
重點摘要:
1. 第 5 條第 3 項立法理由:「勞務採購若以提供勞力為主且工作重複,
實績累積容易,故以第1年預算訂定門檻較為合理」
2. 第 5 條第 2 項:機關不得縮限五分之二比例,但得視需要放寬
3. 實務爭議:若誤用總預算 60,000,000 元計算,門檻將高達 24,000,000 元,
過度限縮競爭,可能遭採購申訴審議委員會撤銷
來源:全國法規資料庫 + 工程會採購專業人員訓練教材
• 法條解讀:3/3 代理確認正確(第 5 條第 1 項、第 3 項)
• 條件判定:履約逾 1 年 ✓、勞力為主 ✓、內容重複 ✓(3/3 一致)
• 計算基準:使用第 1 年預算 30,000,000 元(3/3 一致)
• 計算結果:12,000,000 元(3/3 一致)
• 權威來源:工程會立法說明 + 採購申訴審議案例確認
最終結論:廠商資格門檻應設定為 12,000,000 元,零幻覺,可信度 100%
⚠️ 若使用單一 LLM 直接回答的風險
情境:直接問 LLM「2 年 6000 萬勞務採購,廠商實績門檻應設多少?」
可能錯誤:
• 錯誤 1:回答「24,000,000」(誤用總預算 6000 萬計算,過度限縮競爭)
• 錯誤 2:回答「2,400,000」(使用錯誤比例 10% 而非五分之二)
• 錯誤 3:忽略「履約期間逾 1 年」、「勞力為主」、「內容重複」三條件判斷
• 錯誤 4:虛構不存在的「工程會 113 年函釋」
後果:採購程序違法,遭廠商申訴後採購案撤銷,機關需重新招標,延誤計畫執行
實際案例:Agentic AI 正確答案為 12,000,000 元,
但單一 LLM 常因條件判斷錯誤或計算失誤,產生 24,000,000 元 或其他錯誤答案,
導致採購門檻過高,違反《政府採購法》促進競爭原則。
關鍵設計原則
1. 計算交給程式碼,不交給 LLM
LLM 不擅長精確計算,應將數值運算委派給程式碼執行。AI 負責推理邏輯, 程式負責精確計算。
2. 多重來源交叉驗證
同一結論需經過:
• 本地計算(程式碼執行)
• 權威來源(如全國法規資料庫、工程會函釋、司法院判決)
• 多模型共識(至少 2/3 一致)
3. 完整的證明鏈
每個步驟都必須:
1. 明確定義輸入/輸出
2. 可被獨立驗證
3. 有外部工具佐證
4. 記錄驗證者簽名
適用場景
- 政府 AI 平台:決策需要可追溯的證明鏈
- 金融風控:計算錯誤可能導致巨額損失
- 醫療診斷:錯誤推論影響病患安全
- 學術研究:需要可重現的實驗結果
總結
零幻覺證明不是完全消除 AI 錯誤,而是建立一個可驗證的信任框架。 透過 Claude Code、Gemini CLI、Codex CLI 的專家交叉審查, 加上程式碼計算與權威來源查證,我們可以將 AI 輸出的可信度提升到接近數學證明的等級。
在政府級 AI 系統中,這不是可選項,而是必要的基礎建設。