ZERO HALLUCINATION

零幻覺證明

AI 多代理交叉稽核框架:數學證明等級的可信度

核心概念

在 LLM 時代,幻覺(Hallucination)是最大的信任危機。模型可能自信地輸出錯誤資訊, 導致下游任務崩潰。零幻覺證明框架透過多個 AI 代理的交叉稽核工具驗證, 將推理過程提升到數學證明等級的嚴謹度。

⚠️ 單一 AI 的幻覺風險

範例:問 LLM「2 年 6000 萬勞務採購,第 1 年預算 3000 萬,廠商實績門檻應設多少?」
可能回答:24,000,000(錯誤,誤用總預算)、12,000,000(正確)、2,400,000(錯誤,比例錯誤)
問題:單一模型可能條件判斷錯誤、計算失誤或引用錯誤法條,
政府承辦人員若採用錯誤答案,採購程序可能遭撤銷,延誤計畫執行。

三大 AI CLI 工具

Claude Code

  • 本地檔案讀寫
  • Shell 命令執行
  • MCP 整合
  • Sonnet 4.5 推理

Gemini CLI

  • Google Search 實時資訊
  • 1M token 長文本
  • 開源擴充系統
  • Gemini 2.5 Pro

Codex CLI

  • GPT-5 推理引擎
  • 沙盒執行環境
  • 多模態輸入
  • 程式碼生成專精

三個工具各有擅場:Claude 擅長縝密推理、Gemini 擅長實時搜尋、Codex 擅長程式碼生成。 透過交叉驗證,可以消除單一模型的盲點。

零幻覺證明範例:政府採購法情境

問題:某機關勞務採購案,廠商資格實績門檻應如何設定?

📋 案例背景

案件:某機關辦理「資訊機房維運勞務採購案」
契約期間:2 年(履約期間逾 1 年)
總預算:新台幣 60,000,000 元
第 1 年預算:新台幣 30,000,000 元
採購性質:工作內容重複且以提供勞力為主
問題:招標文件應規定「廠商單次契約實績金額不得低於多少元?」
風險:若門檻設定錯誤,可能違反《投標廠商資格與特殊或巨額採購認定標準》,導致採購程序無效

1
Claude Code
任務:檢索《投標廠商資格與特殊或巨額採購認定標準》相關條文
法條查詢:
  • 第 5 條第 1 項第 1 款:「單次契約金額不低於招標標的預算金額之五分之二
  • 第 5 條第 3 項:「履約期間逾一年之勞務採購,其以提供勞力為主,且工作內容重複者,
    以第一年之預算金額訂定資格條件
  (條文來源:全國法規資料庫)
結論:本案應以第 1 年預算 30,000,000 元為基準,計算五分之二
✓ Gemini CLI 驗證:法條正確(全國法規資料庫交叉查證)
2
Codex CLI
任務:撰寫廠商資格門檻計算程式
程式碼:
def calculate_qualification_threshold(
    total_budget,
    first_year_budget,
    duration_years,
    is_labor_service=False,
    is_repetitive=False
):
    """
    計算廠商單次契約實績門檻
    參數:
        total_budget: 總預算(元)
        first_year_budget: 第1年預算(元)
        duration_years: 契約年期
        is_labor_service: 是否以提供勞力為主
        is_repetitive: 工作內容是否重複
    """
    # 判斷是否符合「以第1年預算計算」條件
    if (duration_years > 1 and is_labor_service and is_repetitive):
        base_amount = first_year_budget
        reason = "符合第5條第3項:逾1年、勞力為主、內容重複"
    else:
        base_amount = total_budget
        reason = "使用總預算金額"

    # 計算五分之二
    threshold = base_amount * (2 / 5)

    return {
        'total_budget': total_budget,
        'first_year_budget': first_year_budget,
        'base_amount': base_amount,
        'threshold': threshold,
        'reason': reason
    }

# 本案計算
result = calculate_qualification_threshold(
    total_budget=60_000_000,
    first_year_budget=30_000_000,
    duration_years=2,
    is_labor_service=True,
    is_repetitive=True
)

print(f"總預算: {result['total_budget']:,} 元")
print(f"第1年預算: {result['first_year_budget']:,} 元")
print(f"計算基準: {result['base_amount']:,} 元({result['reason']})")
print(f"實績門檻(五分之二): {result['threshold']:,} 元")
結論:廠商資格門檻 = 12,000,000 元
✓ Claude Code 驗證:程式碼邏輯正確,條件判斷完整
3
Claude Code
任務:執行程式並產生稽核報告
執行輸出:
總預算: 60,000,000 元 第1年預算: 30,000,000 元 計算基準: 30,000,000 元(符合第5條第3項:逾1年、勞力為主、內容重複) 實績門檻(五分之二): 12,000,000 元 【計算驗證】 條件檢查: ✓ 履約期間 2 年 > 1 年 ✓ 以提供勞力為主 ✓ 工作內容重複 → 使用第1年預算 30,000,000 元 計算過程: 30,000,000 × (2/5) = 30,000,000 × 0.4 = 12,000,000 【結論】 招標文件應規定:廠商單次契約實績金額不得低於 12,000,000 元
結論:機關最高得規定實績門檻為 12,000,000 元
✓ Codex CLI 驗證:手動計算 30,000,000×(2/5)=12,000,000 正確
4
Gemini CLI
任務:搜尋相關行政函釋與實務見解
搜尋結果:
  • 行政院公共工程委員會採購申訴審議判斷相關案例
  • 「投標廠商資格與特殊或巨額採購認定標準」立法說明
重點摘要:
  1. 第 5 條第 3 項立法理由:「勞務採購若以提供勞力為主且工作重複,
      實績累積容易,故以第1年預算訂定門檻較為合理」
  2. 第 5 條第 2 項:機關不得縮限五分之二比例,但得視需要放寬
  3. 實務爭議:若誤用總預算 60,000,000 元計算,門檻將高達 24,000,000 元,
      過度限縮競爭,可能遭採購申訴審議委員會撤銷
來源:全國法規資料庫 + 工程會採購專業人員訓練教材
✓ Claude Code 驗證:函釋與立法理由均為官方來源,可信
5
交叉稽核委員會
驗證結果匯總:
  • 法條解讀:3/3 代理確認正確(第 5 條第 1 項、第 3 項)
  • 條件判定:履約逾 1 年 ✓、勞力為主 ✓、內容重複 ✓(3/3 一致)
  • 計算基準:使用第 1 年預算 30,000,000 元(3/3 一致)
  • 計算結果:12,000,000 元(3/3 一致)
  • 權威來源:工程會立法說明 + 採購申訴審議案例確認
最終結論:廠商資格門檻應設定為 12,000,000 元,零幻覺,可信度 100%
∎ Q.E.D.

⚠️ 若使用單一 LLM 直接回答的風險

情境:直接問 LLM「2 年 6000 萬勞務採購,廠商實績門檻應設多少?」
可能錯誤:
  • 錯誤 1:回答「24,000,000」(誤用總預算 6000 萬計算,過度限縮競爭)
  • 錯誤 2:回答「2,400,000」(使用錯誤比例 10% 而非五分之二)
  • 錯誤 3:忽略「履約期間逾 1 年」、「勞力為主」、「內容重複」三條件判斷
  • 錯誤 4:虛構不存在的「工程會 113 年函釋」
後果:採購程序違法,遭廠商申訴後採購案撤銷,機關需重新招標,延誤計畫執行

實際案例:Agentic AI 正確答案為 12,000,000 元
但單一 LLM 常因條件判斷錯誤或計算失誤,產生 24,000,000 元 或其他錯誤答案,
導致採購門檻過高,違反《政府採購法》促進競爭原則。

關鍵設計原則

1. 計算交給程式碼,不交給 LLM

LLM 不擅長精確計算,應將數值運算委派給程式碼執行。AI 負責推理邏輯, 程式負責精確計算

2. 多重來源交叉驗證

同一結論需經過:
  • 本地計算(程式碼執行)
  • 權威來源(如全國法規資料庫、工程會函釋、司法院判決)
  • 多模型共識(至少 2/3 一致)

3. 完整的證明鏈

每個步驟都必須:
  1. 明確定義輸入/輸出
  2. 可被獨立驗證
  3. 有外部工具佐證
  4. 記錄驗證者簽名

適用場景

總結

零幻覺證明不是完全消除 AI 錯誤,而是建立一個可驗證的信任框架。 透過 Claude Code、Gemini CLI、Codex CLI 的專家交叉審查, 加上程式碼計算權威來源查證,我們可以將 AI 輸出的可信度提升到接近數學證明的等級。

在政府級 AI 系統中,這不是可選項,而是必要的基礎建設