AI TREND WEEKLY2026-05-04 – 2026-05-10

語音模型齊發、Sora 帳本攤開：創作工具箱該重排了

本期四題：① OpenAI 5/7 齊發三支 realtime 語音模型（推理／翻譯／串流轉錄）；② ChatGPT 進 Excel/Sheets、Claude 進 Microsoft Office 的辦公室卡位；③ Sora 關站帳本流出、生成影片成本真相；④ Midjourney V8.1 創作者手上的第一個完整實測週。

本期觀點

本週（5/4–5/10）的主線是「介面在搬家」。OpenAI 在 5/7 一口氣把三支 realtime 語音模型推上 API，語音從一問一答升級成能邊聽邊推理、翻譯、轉錄；同一週 ChatGPT 進了 Excel 與 Google Sheets、Claude 正式進駐 Microsoft Office——AI 不再等你打開聊天視窗。另一頭，Sora 關站後的成本帳本被攤開檢視，提醒所有影片創作者：生成影片的推理成本比文字高出幾個數量級，平台說收就收。能帶走的判斷：工具會搬家、會關站，但結構化的 prompt 資產可以跟著你走——把工作流寫成可攜的提示詞，比押注任何單一平台都穩。

1. OpenAI 三支語音模型齊發：聽、想、譯、錄一次到位

5/7，OpenAI 在 Realtime API 上同時發布三支模型：GPT-Realtime-2（首支具 GPT-5 等級推理能力的語音模型，複雜任務回應壓在 500ms 內）、GPT-Realtime-Translate（70+ 種輸入語言即時翻成 13 種輸出語言，跟得上講者語速）、GPT-Realtime-Whisper（串流式語音轉文字，邊講邊出稿）。OpenAI 自己的定調，是把即時語音從「一問一答」推向「能聽、能推理、能翻譯、能轉錄、能動手做事」的介面。

為什麼重要：

口播翻譯、多語字幕、Podcast 逐字稿這些原本「錄完再處理」的工序，開始可以即時做。
對做音樂和影片的人，轉錄與對軸的底層零件升級了，等於整條後製管線的延遲天花板被砍低。

→ 站內馬上能用：LRC 歌詞對軸工具走的正是 Whisper 轉錄路線，串流版上線代表這類對軸工作流的延遲只會更低；想把人聲素材排進創作流程，可從音樂類提示詞起手。

2. AI 進辦公室：ChatGPT 接管試算表、Claude 進駐 Office

兩件事擠在同一週：5/5，OpenAI 推出 ChatGPT for Excel 與 Google Sheets，由 GPT-5.5 驅動、全方案（含免費）可用，並接上 Moody's、Dow Jones Factiva、MSCI 等金融資料源；5/7，Anthropic 的 Claude for Microsoft Office 正式 GA，覆蓋 Word、Excel、PowerPoint，Outlook 進公測，付費訂閱用戶透過 Microsoft Marketplace 加掛、不另收費。

為什麼重要：提示詞的主戰場正從聊天視窗移進文件和表格。在試算表裡的 AI 不吃「一次性對話」，吃的是寫好就常駐的指令——這是 custom instructions 的寫法，不是單發 prompt 的寫法。兩大陣營同週搶進辦公軟體，也代表這套寫法接下來會是高頻需求。

→ 站內馬上能用：ChatGPT 指令集整理的就是「常駐型」指令範式，搬進 Excel/Office 場景照樣成立；要從零生一條工作流指令，用 Chat 提示詞生成器。

3. Sora 帳本攤開：生成影片的真實成本課

Sora 已於 4/26 關站（舊聞），但本週彙整圈把它的帳本翻了出來：報導引述的數字是日常營運成本約 100 萬美元、尖峰單日燒到 1,500 萬美元，而整個產品生命週期的營收僅 210 萬美元、用戶不到 50 萬。結論不複雜：生成影片的推理成本比文字 AI 高出幾個數量級，免費或低價的影片生成本質上是補貼。

為什麼重要：

補貼會停。把工作流綁死在單一影片平台，等於把停損點交給別人。
真正可攜的是 prompt 結構：主體、運鏡、光線、節奏分開寫的提示詞，跨平台搬家成本最低。

→ 站內馬上能用：模型比較把 Veo、Runway、Kling 等替代方案攤開對照，是做備援評估的起點；影片提示詞生成器產出的就是結構化、可跨平台改寫的格式。

4. Midjourney V8.1 的第一個完整創作週

嚴格說 V8.1 是 4/30 才正式放上 Discord 和 midjourney.com（日期落在上一週尾巴），但本週才是創作者手上的第一個完整週。官方說法是模型「更聰明、更連貫、更服從細節指令、文字渲染史上最好」；4/30 該版同步補了銳利度，官方提到在 SREF 和 Moodboard 上最有感。第三方評測則聚焦速度：標準任務據稱比前代快 4–5 倍、HD 直出 2K 不需再放大。

為什麼重要：模型換代後，舊 prompt 的手感一定會跑掉——同一組 sref 和參數在 V8.1 下的出圖會偏移。與其覺得「怪怪的」，不如趁這週系統性重跑一次常用 prompt、把參數重新校一遍。

→ 站內馬上能用：用 Midjourney 提示詞生成器重組你的常用配方；要找校準基準，MJ 電影感人像這類結構完整的範本適合當對照組。

下週看什麼

ChatGPT 免費版將開始在回答中嵌入更多網路圖片（5/12 起全球推送），聊天介面的「視覺含量」在升高，值得觀察對圖像內容曝光的影響。
Adobe 正把 Firefly 做成多模型前台，ElevenLabs 語音、Kling 3.0 等夥伴模型陸續進駐，下週留意整合公告。
再下一週就是 Google I/O（5/19），Gemini 系的多模態與生成模型動向是重頭戲；V8.1 何時轉正成 Midjourney 預設模型也值得盯。

--- 本週報由 PromptCraft 編輯整理，資料來源含官方公告與當週社群動態（[彙整來源](https://www.techosaurus.co.uk/news/2026/05/10/the-ai-roundup-may-bumper/)）。