How AI Engineers Improve Agentic Products

📝 內容摘要

本影片主要探討如何提升 AI 產品的成功率，避免陷入 Gen AI 專案失敗的困境。Adam Lucek 強調，成功的關鍵在於定義明確的評估指標、轉向以使用者為中心的評估方式，並深入追蹤語言模型系統的執行軌跡。影片中深入探討了收集人類回饋、使用 LLM 作為評估者，以及運用傳統函數等多種評估方法，並提供實用的建議和技巧，協助開發者建立有效的評估體系，改善 AI 產品的品質和使用者體驗。

💡 深度 Q&A（20 則）

Q1 為什麼 Adam 說現在公司裡有 95% 的 Gen AI 專案都失敗了？

A: 因為現在用語言模型 API 很容易做出概念驗證，但要將這些 PoC 擴展成成功的產品，並且量化輸出的好壞，卻是個挑戰。

Q2 要怎麼把 AI 的 PoC 變成成功的產品，並確保輸出品質？

A: 需要定義評估指標、將評估標準從技術轉為以使用者為中心，並追蹤語言模型系統的完整流程，從輸入到最終輸出。

Q3 影片中提到 Sreya Shankar 的文章，她點出 AI 產品失敗的常見問題是什麼？

A: 團隊往往對剛推出的 AI 應用期望過高，沒有建立基礎設施來持續檢測數據、新增測試和改進端到端系統。

Q4 為什麼傳統的軟體測試方法不適用於 AI 系統？

A: 因為語言模型的輸出本質上是隨機且主觀的，對於相同的輸入，不同使用者可能會得到不同的結果，這使得輸出的驗證變得困難。

Q5 影片中提到的三個關鍵步驟，可以讓我們更有效率的改善AI產品？

A: 首先，要與開發同步定義評估指標；接著，將評估標準從技術轉為以使用者為中心；最後，要仔細檢視語言模型系統的完整執行軌跡。

Q6 Adam 提到可以把語言模型想成什麼來管理？

A: 可以把語言模型想像成實習生或員工來管理，評估它的表現，例如是否理解任務、是否採取正確步驟、是否有有效率的結論等等。

Q7 影片中 Google 的白皮書提到，傳統軟體驗證和現代 AI 評估的核心差異在哪？

A: 傳統軟體驗證問的是「我們是否正確地構建了產品？」，而現代 AI 評估則問的是「我們是否構建了正確的產品？」，更注重品質、穩定性和使用者信任度。

Q8 評估語言模型輸出價值的時候，為什麼說「知易行難」？

A: 因為價值評估是主觀的、高度依賴應用場景，並且需要大量的前置作業來建立評估框架，才能對產品進行有意義的改進。

Q9 影片中提到，一般語言模型釋出時會有的評估圖表，對實際產品開發有什麼幫助？

A: 這些圖表可以了解不同模型的效能，但對特定產品的應用幫助不大，因為產品的推理引擎可能只依賴模型的其中一部分能力。

Q10 影片中提到語言模型評估的三種主要方法是什麼？

A: 分別是人類回饋 (Human Feedback)、語言模型作為評估者 (LLM as a Judge)，以及傳統的函數 (Functions)。

Q11 影片中，Adam 說收集和分析什麼是他評估 AI 系統表現時花最多時間的事情？

A: 他花最多時間在收集和分析人類回饋，因為這是了解系統優缺點，並找出改善方向最重要的方式。

Q12 在收集使用者回饋時，為什麼要考慮不同的使用者情境 (scenarios) 和角色 (personas)？

A: 這樣才能確保收集到多樣化的查詢範例，涵蓋所有可能的使用者需求，從而更全面地評估系統的表現。

Q13 為什麼 Adam 強調在進行評估前，先建立基準線 (baseline) 或概念驗證 (PoC) 很重要？

A: 因為在沒有實際系統可以觀察之前，很難有效地判斷要分析或評估什麼，有了基準線才能更有針對性地建立評估體系。

Q14 為什麼影片中強調，最好找領域專家 (SME) 來參與評估，而不是技術人員自己評估？

A: 因為領域專家對產品的應用領域有深入的了解，他們的意見對於判斷系統的實際表現，以及找出最佳的優化方向至關重要。

Q15 影片中提到，收集回饋時為什麼建議使用二元指標（例如：通過/失敗）而不是使用評分量表？

A: 因為評分量表難以解釋，不同的人對同一分數的理解可能不同，而二元指標更清晰明確，能提供更強烈的效能訊號。

Q16 什麼是「錯誤分析 (Error Analysis)」？在影片中它的作用是什麼？

A: 錯誤分析是檢視系統失敗的案例，並將失敗模式歸類到常見主題中。這樣可以找出產品的痛點，並針對性地解決問題。

Q17 什麼是「準則漂移 (Criteria Drift)」？

A: 指的是人們在評估輸出的過程中，會逐漸調整和定義自己的評估標準，因此無法在人類評估語言模型輸出之前完全確定評估標準。

Q18 為什麼 Adam 說，有些團隊直接跳到使用 LLM 作為評估者，卻忽略了收集人類回饋的步驟，是常見的錯誤？

A: 因為沒有人類回饋作為基礎，就無法定義評估標準，也無法將 LLM 評估者的結果與人類的判斷對齊，導致評估結果不準確。

Q19 影片中提到，要讓 LLM 評估者更準確，有哪些需要注意的細節？

A: 使用定義清晰的評估標準、選用強大的語言模型、使用二元評分（通過/失敗），以及針對每個評估指標使用獨立的 LLM 評估者。

Q20 影片中 Adam 有提到他自己開發的開源評估平台 Evaluiser 主要有哪些功能？

A: 可以上傳數據集、執行提示 (Prompts) 並記錄輸出、提供註釋和評估，以及運行各種指標，例如精確匹配函數和語言模型評估函數。

🎯 關於本文

本文由 Botrun 開腦洞技術團隊使用 AI 工具自動生成，包含 YouTube 影片下載、OpenAI Whisper 語音轉文字、Gemini 2.0 Flash Exp Q&A 摘要生成等技術。內容準確性已經過人工審核，但仍建議搭配原始影片觀看以獲得完整體驗。