Embedding
向量嵌入
01你是不是遇到這個 / THE SYMPTOM
我想做「語意搜尋」——使用者打「退費」也要搜得到寫成「退款」「退錢」的文章,不是只比對字面有沒有一模一樣。我不知道這種「意思相近就算命中」的搜尋技術叫什麼。
↑ 如果你點頭了,你要的關鍵字就是 Embedding。
02這是什麼 / DEFINITION
把文字(或圖片)轉成一串數字向量,讓「意思相近」的內容在向量空間裡距離也相近,於是電腦可以用數學距離來判斷兩段內容語意有多像。
03什麼時候用 / WHEN TO USE
需要「按語意」而非「按關鍵字」比對時:語意搜尋、相似文章推薦、把資料分群、以及 RAG 裡的「取出最相關片段」這一步。
04怎麼跟 AI 說 / HOW TO ASK
直接複製這句、貼進 Claude Code / Cursor / Copilot / ChatGPT:
幫我用 embedding 模型把這批文章各自轉成向量存起來,再寫一個函式:輸入一段查詢文字,回傳語意最相近的前 N 篇文章(用 cosine similarity 排序)。
05常見坑 / WATCH OUT
⚠ 查詢和文件必須用「同一個 embedding 模型」轉,混用不同模型算出來的距離沒意義。另外向量比的是「語意相近」不是「事實正確」,相近 ≠ 答案對。
06相關的詞 / RELATED