RAG (Retrieval-Augmented Generation)

檢索增強生成

01你是不是遇到這個 / THE SYMPTOM

我想做一個 AI 問答機器人，要它根據我自己的文件（公司手冊、PDF、客服資料）來回答，而不是它亂編。但我不知道怎麼讓 AI「讀我的資料」，總不能每次都把整份文件貼進去。

↑ 如果你點頭了，你要的關鍵字就是 RAG (Retrieval-Augmented Generation)。

02這是什麼 / DEFINITION

一套做法：先把你的資料切片存進可搜尋的資料庫，使用者提問時先「檢索」出最相關的幾段，再連同問題一起餵給 LLM 生成答案，讓回答有依據、減少亂編。

03什麼時候用 / WHEN TO USE

當你要 AI 根據「外部、私有、會更新」的知識回答（內部文件、產品資料、法規），而這些內容不在模型訓練資料裡、又太多塞不進一次對話時。

04怎麼跟 AI 說 / HOW TO ASK

直接複製這句、貼進 Claude Code / Cursor / Copilot / ChatGPT：

幫我做一個 RAG 流程：把這個資料夾的 PDF 切片做 embedding 存進向量資料庫，使用者提問時先做相似度檢索取回前 5 段，再把這些段落當作 context 餵給 LLM 生成答案並標註來源。

05常見坑 / WATCH OUT

⚠ RAG 不是「微調（fine-tuning）」。RAG 是查資料給模型看、隨時可換資料；fine-tuning 是改模型本身的權重、成本高且不好更新。大多數「讓 AI 懂我的資料」其實要的是 RAG，不是 fine-tuning。

06相關的詞 / RELATED

我想做「語意搜尋」——使用者打「退費」也要搜得到寫成「退款」「退錢」的文章，不是只比對字面有沒有一模一樣。我不知道這種「意思相近就算命中」的搜尋技術叫什麼。

我把一整本長文檔丟給 AI，它要嘛報錯說太長、要嘛回答時好像「忘了」前面講過的內容。對話一長它也開始前後兜不起來。我不知道這個「一次能塞多少進去」的上限叫什麼。

我想讓 AI 不只是聊天，而是能「真的去做事」——查我的資料庫、呼叫天氣 API、寄一封信。但 AI 本身不會連我的系統，我不知道怎麼讓它「決定要呼叫哪個功能、給什麼參數」。