生成模型安靜週:代理開始動手、錢押向代理式工作流
本期四個主題:Google 在 Android Show 端出 Gemini Intelligence 與 Gboard「Rambler」口述清稿;Microsoft 讓 AI 代理直接操作電腦介面並全面商用、OpenAI 成立部署子公司;Anthropic 揭露 80 倍營收與 9,000 億美元估值募資;以及生成模型零發布的安靜週、ChatGPT 介面視覺化,外加 Google I/O 前瞻。
本期觀點
這一週(5/11–5/17)生成模型圈出奇地安靜——兩份五月模型發布追蹤都記錄到「圖像、影片、音訊模型零大發布」。鎂光燈全在另外兩條線:AI 代理從 demo 走進正式商用(Microsoft 讓代理直接操作電腦介面、OpenAI 乾脆成立子公司派工程師駐場),以及錢的流向(Anthropic 揭露 80 倍營收、傳出 9,000 億美元估值的募資談判)。給創作者的判斷:安靜不是降溫,是大廠在下週 Google I/O 前憋牌。趁這週把手上的 prompt 資產與工作流整理好——下週多模態大概率有一波改版,到時再追就是被牽著走。
1. Android 變成「智慧系統」:Gemini Intelligence 與 Gboard Rambler
5/12 的 The Android Show: I/O Edition,Google 把整套「Gemini Intelligence」鋪進 Android:AI 即時生成的客製 widget(gen-UI)、Chrome 自動瀏覽、更聰明的表單填寫,還預告了以 Gemini 為核心的 Googlebook 硬體與次世代 Android Auto。對做內容的人,最實在的是 Gboard 的「Rambler」:Gemini 驅動的口述模式,自動去掉「嗯、啊」贅詞、聽得懂你中途改口、支援多語混講(code-switching),今年夏天先上 Pixel 與 Samsung Galaxy,且 Google 強調不儲存錄音。
為什麼重要:
- 「先講再修」的口述寫作流,正式被作業系統內建。TechCrunch 直接點名 Wispr Flow、Typeless 這類口述新創壓力山大——單點工具的功能,又一次被平台收編。
- 加上前一週(5/7)OpenAI 才把三個 Realtime 語音模型放進 API,「用講的跟 AI 工作」這條介面線兩大陣營在同步推進。口語輸入只會越來越髒、越即興——把髒輸入收斂成穩定輸出的,是你預先寫好的指令層。
→ 站內馬上能用:ChatGPT 自訂指令合集 正是「指令層」的現成範本,口述進來的雜訊靠常駐指令收斂成固定格式;想補結構化提示的基本功,從聊天技法提示詞挑一篇開始。
2. 代理開始「動手」:Copilot Computer Use 全面商用、OpenAI 成立部署公司
兩件事擠在 48 小時內發生:
- 5/13,Microsoft Copilot Studio 的 Computer Use 在所有商業地區正式 GA——代理不再只接 API,而是直接看畫面、點按鈕、填表單。值得玩味的是,底層用的是 Anthropic 的 Claude Sonnet 4.5(beta)。
- 5/12,OpenAI 成立 The Deployment Company(外電稱規模逾 40 億美元的子公司),把「駐場工程師」做成產品,並收購倫敦約 150 人的工程顧問 Tomoro;首批客戶包括 Fidelity、Virgin Atlantic、Tesco 與 NBA。
為什麼重要:當代理能自己操作 UI,「一句話 prompt」的價值會持續往兩端移動——一端是把任務寫成代理能照做的「規格書」(步驟、邊界、驗收條件),另一端是出錯時知道怎麼定位、怎麼改。會寫 prompt 的人沒有被淘汰,是被升職成寫 SOP 的人。
→ 站內馬上能用:Skills 專區 收的就是「把任務寫成可重複執行規格」的玩法;prompt 跑出來不對勁時,Prompt 除錯 那套排查順序對代理任務一樣適用。
3. 錢的訊號:Anthropic 80 倍營收、Claude Code 一條線 25 億美元
5/11,Anthropic CEO Dario Amodei 揭露 2026 Q1 營收年增 80 倍、年化超過 440 億美元,其中 Claude Code 單一產品線年化 25 億美元、年花百萬美元以上的客戶從 12 家增加到 500 家以上。緊接著 5/12 起傳出 Anthropic 洽談 300 億美元募資、估值約 9,000 億美元——可能超車 OpenAI 的 8,520 億。同一週還有 PwC 把 Claude 鋪向全球數十萬員工、與 Gates 基金會的 2 億美元合作。
為什麼重要:營收結構說明引擎不是聊天、是代理式工作流(agentic coding)。錢往哪流、工具就往哪做——接下來各模型廠的產品更新,會優先餵養「會做事的 AI」而不是「會聊天的 AI」。對創作者的直接影響:生圖生影片工具也會逐步長出代理式批次流程(排程出圖、自動重試、串接後製),早一點習慣把需求寫成可交辦的格式不吃虧。
→ 站內馬上能用:Chat 提示詞生成器 可以把模糊需求展開成結構化的任務描述;不確定哪個模型適合哪種活,模型對比 有現成對照。
4. 生成模型的安靜週:介面在變「視覺化」、大招在路上
兩份五月模型追蹤(Digital Applied、mager.co)都明確記錄:5/11–17 沒有任何重量級圖像、影片或音訊模型發布。但介面端有兩個小動作值得記下:5/12 ChatGPT 讓免費用戶在回答裡看到更多網路圖片(視覺主題直接配圖、web 與 iOS 先行);5/14 檔案庫(File library)開放給 Free 與 Go 用戶。
為什麼重要:
- AI 介面越來越視覺化=內容被 AI 引用的型態在變。你的圖、你的作品頁會不會被 AI 介面撿去當答案的一部分,取決於頁面結構是否乾淨可解析——這對靠流量吃飯的創作者是新一代的 SEO 課題。
- 安靜週的另一面:Google I/O 下週就來。這週適合做的不是追新品,而是盤點手上的圖像 prompt 有哪些已經綁死在特定模型的語法上,換模型時才知道哪些要重寫。
→ 站內馬上能用:圖像提示詞庫 按工具分好類、適合當這週的盤點基準;要摸清各家模型的脾氣,模型百科 一頁一個。
下週看什麼
- Google I/O(5/19–20):官方已定檔兩天。傳聞重點是 Gemini 3.5 與主打「任何輸入到任何輸出」的多模態 Gemini Omni——若屬實,這會是本月對生圖、生影片的人最重要的一場發布會,值得把現有工具棧重新校一次。
- Cursor Composer 2.5(傳 5/18):模型追蹤站列出兩個版本層級、僅限 Cursor IDE 內使用,代理式編程的軍備競賽還在加速。
- Anthropic 300 億美元募資是否定案:各方消息對「已敲定」還是「還在談」說法不一,月底前應有答案。
--- 本週報由 PromptCraft 編輯整理,資料來源含官方公告與當週社群動態([彙整來源](https://champaignmagazine.com/2026/05/17/ai-by-ai-weekly-top-5-may-11-17-2026/))。