零幻覺證明：AI 多代理交叉稽核框架

核心概念

在 LLM 時代，幻覺（Hallucination）是最大的信任危機。模型可能自信地輸出錯誤資訊，導致下游任務崩潰。零幻覺證明框架透過多個 AI 代理的交叉稽核與工具驗證，將推理過程提升到數學證明等級的嚴謹度。

⚠️ 單一 AI 的幻覺風險

範例：問 LLM「2 年 6000 萬勞務採購，第 1 年預算 3000 萬，廠商實績門檻應設多少？」
可能回答：24,000,000（錯誤，誤用總預算）、12,000,000（正確）、2,400,000（錯誤，比例錯誤）
問題：單一模型可能條件判斷錯誤、計算失誤或引用錯誤法條，
政府承辦人員若採用錯誤答案，採購程序可能遭撤銷，延誤計畫執行。

三大 AI CLI 工具

Claude Code

本地檔案讀寫
Shell 命令執行
MCP 整合
Sonnet 4.5 推理

Gemini CLI

Google Search 實時資訊
1M token 長文本
開源擴充系統
Gemini 2.5 Pro

Codex CLI

GPT-5 推理引擎
沙盒執行環境
多模態輸入
程式碼生成專精

三個工具各有擅場：Claude 擅長縝密推理、Gemini 擅長實時搜尋、Codex 擅長程式碼生成。透過交叉驗證，可以消除單一模型的盲點。

零幻覺證明範例：政府採購法情境

問題：某機關勞務採購案，廠商資格實績門檻應如何設定？

📋 案例背景

案件：某機關辦理「資訊機房維運勞務採購案」
契約期間：2 年（履約期間逾 1 年）
總預算：新台幣 60,000,000 元
第 1 年預算：新台幣 30,000,000 元
採購性質：工作內容重複且以提供勞力為主
問題：招標文件應規定「廠商單次契約實績金額不得低於多少元？」
風險：若門檻設定錯誤，可能違反《投標廠商資格與特殊或巨額採購認定標準》，導致採購程序無效

Claude Code

任務：檢索《投標廠商資格與特殊或巨額採購認定標準》相關條文
法條查詢：
  • 第 5 條第 1 項第 1 款：「單次契約金額不低於招標標的預算金額之五分之二」
  • 第 5 條第 3 項：「履約期間逾一年之勞務採購，其以提供勞力為主，且工作內容重複者，
    以第一年之預算金額訂定資格條件」
  （條文來源：全國法規資料庫）
結論：本案應以第 1 年預算 30,000,000 元為基準，計算五分之二

✓ Gemini CLI 驗證：法條正確（全國法規資料庫交叉查證）

Codex CLI

任務：撰寫廠商資格門檻計算程式
程式碼：

def calculate_qualification_threshold(
    total_budget,
    first_year_budget,
    duration_years,
    is_labor_service=False,
    is_repetitive=False
):
    """
    計算廠商單次契約實績門檻
    參數:
        total_budget: 總預算（元）
        first_year_budget: 第1年預算（元）
        duration_years: 契約年期
        is_labor_service: 是否以提供勞力為主
        is_repetitive: 工作內容是否重複
    """
    # 判斷是否符合「以第1年預算計算」條件
    if (duration_years > 1 and is_labor_service and is_repetitive):
        base_amount = first_year_budget
        reason = "符合第5條第3項：逾1年、勞力為主、內容重複"
    else:
        base_amount = total_budget
        reason = "使用總預算金額"

    # 計算五分之二
    threshold = base_amount * (2 / 5)

    return {
        'total_budget': total_budget,
        'first_year_budget': first_year_budget,
        'base_amount': base_amount,
        'threshold': threshold,
        'reason': reason
    }

# 本案計算
result = calculate_qualification_threshold(
    total_budget=60_000_000,
    first_year_budget=30_000_000,
    duration_years=2,
    is_labor_service=True,
    is_repetitive=True
)

print(f"總預算: {result['total_budget']:,} 元")
print(f"第1年預算: {result['first_year_budget']:,} 元")
print(f"計算基準: {result['base_amount']:,} 元（{result['reason']}）")
print(f"實績門檻（五分之二）: {result['threshold']:,} 元")

結論：廠商資格門檻 = 12,000,000 元

✓ Claude Code 驗證：程式碼邏輯正確，條件判斷完整

Claude Code

任務：執行程式並產生稽核報告
執行輸出：

總預算: 60,000,000 元第1年預算: 30,000,000 元計算基準: 30,000,000 元（符合第5條第3項：逾1年、勞力為主、內容重複）實績門檻（五分之二）: 12,000,000 元【計算驗證】條件檢查： ✓ 履約期間 2 年 > 1 年 ✓ 以提供勞力為主 ✓ 工作內容重複 → 使用第1年預算 30,000,000 元計算過程： 30,000,000 × (2/5) = 30,000,000 × 0.4 = 12,000,000 【結論】招標文件應規定：廠商單次契約實績金額不得低於 12,000,000 元

結論：機關最高得規定實績門檻為 12,000,000 元

✓ Codex CLI 驗證：手動計算 30,000,000×(2/5)=12,000,000 正確

Gemini CLI

任務：搜尋相關行政函釋與實務見解
搜尋結果：
  • 行政院公共工程委員會採購申訴審議判斷相關案例
  • 「投標廠商資格與特殊或巨額採購認定標準」立法說明
重點摘要：
  1. 第 5 條第 3 項立法理由：「勞務採購若以提供勞力為主且工作重複，
      實績累積容易，故以第1年預算訂定門檻較為合理」
  2. 第 5 條第 2 項：機關不得縮限五分之二比例，但得視需要放寬
  3. 實務爭議：若誤用總預算 60,000,000 元計算，門檻將高達 24,000,000 元，
      過度限縮競爭，可能遭採購申訴審議委員會撤銷
來源：全國法規資料庫 + 工程會採購專業人員訓練教材

✓ Claude Code 驗證：函釋與立法理由均為官方來源，可信

交叉稽核委員會

驗證結果匯總：
  • 法條解讀：3/3 代理確認正確（第 5 條第 1 項、第 3 項）
  • 條件判定：履約逾 1 年 ✓、勞力為主 ✓、內容重複 ✓（3/3 一致）
  • 計算基準：使用第 1 年預算 30,000,000 元（3/3 一致）
  • 計算結果：12,000,000 元（3/3 一致）
  • 權威來源：工程會立法說明 + 採購申訴審議案例確認
最終結論：廠商資格門檻應設定為 12,000,000 元，零幻覺，可信度 100%

∎ Q.E.D.

⚠️ 若使用單一 LLM 直接回答的風險

情境：直接問 LLM「2 年 6000 萬勞務採購，廠商實績門檻應設多少？」
可能錯誤：
  • 錯誤 1：回答「24,000,000」（誤用總預算 6000 萬計算，過度限縮競爭）
  • 錯誤 2：回答「2,400,000」（使用錯誤比例 10% 而非五分之二）
  • 錯誤 3：忽略「履約期間逾 1 年」、「勞力為主」、「內容重複」三條件判斷
  • 錯誤 4：虛構不存在的「工程會 113 年函釋」
後果：採購程序違法，遭廠商申訴後採購案撤銷，機關需重新招標，延誤計畫執行

實際案例：Agentic AI 正確答案為 12,000,000 元，
但單一 LLM 常因條件判斷錯誤或計算失誤，產生 24,000,000 元 或其他錯誤答案，
導致採購門檻過高，違反《政府採購法》促進競爭原則。

關鍵設計原則

1. 計算交給程式碼，不交給 LLM

LLM 不擅長精確計算，應將數值運算委派給程式碼執行。AI 負責推理邏輯，程式負責精確計算。

2. 多重來源交叉驗證

同一結論需經過：
  • 本地計算（程式碼執行）
  • 權威來源（如全國法規資料庫、工程會函釋、司法院判決）
  • 多模型共識（至少 2/3 一致）

3. 完整的證明鏈

每個步驟都必須：
  1. 明確定義輸入/輸出
  2. 可被獨立驗證
  3. 有外部工具佐證
  4. 記錄驗證者簽名

適用場景

政府 AI 平台：決策需要可追溯的證明鏈
金融風控：計算錯誤可能導致巨額損失
醫療診斷：錯誤推論影響病患安全
學術研究：需要可重現的實驗結果

總結

零幻覺證明不是完全消除 AI 錯誤，而是建立一個可驗證的信任框架。透過 Claude Code、Gemini CLI、Codex CLI 的專家交叉審查，加上程式碼計算與權威來源查證，我們可以將 AI 輸出的可信度提升到接近數學證明的等級。

在政府級 AI 系統中，這不是可選項，而是必要的基礎建設。