語音模型齊發、Sora 帳本攤開:創作工具箱該重排了
本期四題:① OpenAI 5/7 齊發三支 realtime 語音模型(推理/翻譯/串流轉錄);② ChatGPT 進 Excel/Sheets、Claude 進 Microsoft Office 的辦公室卡位;③ Sora 關站帳本流出、生成影片成本真相;④ Midjourney V8.1 創作者手上的第一個完整實測週。
本期觀點
本週(5/4–5/10)的主線是「介面在搬家」。OpenAI 在 5/7 一口氣把三支 realtime 語音模型推上 API,語音從一問一答升級成能邊聽邊推理、翻譯、轉錄;同一週 ChatGPT 進了 Excel 與 Google Sheets、Claude 正式進駐 Microsoft Office——AI 不再等你打開聊天視窗。另一頭,Sora 關站後的成本帳本被攤開檢視,提醒所有影片創作者:生成影片的推理成本比文字高出幾個數量級,平台說收就收。能帶走的判斷:工具會搬家、會關站,但結構化的 prompt 資產可以跟著你走——把工作流寫成可攜的提示詞,比押注任何單一平台都穩。
1. OpenAI 三支語音模型齊發:聽、想、譯、錄一次到位
5/7,OpenAI 在 Realtime API 上同時發布三支模型:GPT-Realtime-2(首支具 GPT-5 等級推理能力的語音模型,複雜任務回應壓在 500ms 內)、GPT-Realtime-Translate(70+ 種輸入語言即時翻成 13 種輸出語言,跟得上講者語速)、GPT-Realtime-Whisper(串流式語音轉文字,邊講邊出稿)。OpenAI 自己的定調,是把即時語音從「一問一答」推向「能聽、能推理、能翻譯、能轉錄、能動手做事」的介面。
為什麼重要:
- 口播翻譯、多語字幕、Podcast 逐字稿這些原本「錄完再處理」的工序,開始可以即時做。
- 對做音樂和影片的人,轉錄與對軸的底層零件升級了,等於整條後製管線的延遲天花板被砍低。
→ 站內馬上能用:LRC 歌詞對軸工具 走的正是 Whisper 轉錄路線,串流版上線代表這類對軸工作流的延遲只會更低;想把人聲素材排進創作流程,可從 音樂類提示詞 起手。
2. AI 進辦公室:ChatGPT 接管試算表、Claude 進駐 Office
兩件事擠在同一週:5/5,OpenAI 推出 ChatGPT for Excel 與 Google Sheets,由 GPT-5.5 驅動、全方案(含免費)可用,並接上 Moody's、Dow Jones Factiva、MSCI 等金融資料源;5/7,Anthropic 的 Claude for Microsoft Office 正式 GA,覆蓋 Word、Excel、PowerPoint,Outlook 進公測,付費訂閱用戶透過 Microsoft Marketplace 加掛、不另收費。
為什麼重要:提示詞的主戰場正從聊天視窗移進文件和表格。在試算表裡的 AI 不吃「一次性對話」,吃的是寫好就常駐的指令——這是 custom instructions 的寫法,不是單發 prompt 的寫法。兩大陣營同週搶進辦公軟體,也代表這套寫法接下來會是高頻需求。
→ 站內馬上能用:ChatGPT 指令集 整理的就是「常駐型」指令範式,搬進 Excel/Office 場景照樣成立;要從零生一條工作流指令,用 Chat 提示詞生成器。
3. Sora 帳本攤開:生成影片的真實成本課
Sora 已於 4/26 關站(舊聞),但本週彙整圈把它的帳本翻了出來:報導引述的數字是日常營運成本約 100 萬美元、尖峰單日燒到 1,500 萬美元,而整個產品生命週期的營收僅 210 萬美元、用戶不到 50 萬。結論不複雜:生成影片的推理成本比文字 AI 高出幾個數量級,免費或低價的影片生成本質上是補貼。
為什麼重要:
- 補貼會停。把工作流綁死在單一影片平台,等於把停損點交給別人。
- 真正可攜的是 prompt 結構:主體、運鏡、光線、節奏分開寫的提示詞,跨平台搬家成本最低。
→ 站內馬上能用:模型比較 把 Veo、Runway、Kling 等替代方案攤開對照,是做備援評估的起點;影片提示詞生成器 產出的就是結構化、可跨平台改寫的格式。
4. Midjourney V8.1 的第一個完整創作週
嚴格說 V8.1 是 4/30 才正式放上 Discord 和 midjourney.com(日期落在上一週尾巴),但本週才是創作者手上的第一個完整週。官方說法是模型「更聰明、更連貫、更服從細節指令、文字渲染史上最好」;4/30 該版同步補了銳利度,官方提到在 SREF 和 Moodboard 上最有感。第三方評測則聚焦速度:標準任務據稱比前代快 4–5 倍、HD 直出 2K 不需再放大。
為什麼重要:模型換代後,舊 prompt 的手感一定會跑掉——同一組 sref 和參數在 V8.1 下的出圖會偏移。與其覺得「怪怪的」,不如趁這週系統性重跑一次常用 prompt、把參數重新校一遍。
→ 站內馬上能用:用 Midjourney 提示詞生成器 重組你的常用配方;要找校準基準,MJ 電影感人像 這類結構完整的範本適合當對照組。
下週看什麼
- ChatGPT 免費版將開始在回答中嵌入更多網路圖片(5/12 起全球推送),聊天介面的「視覺含量」在升高,值得觀察對圖像內容曝光的影響。
- Adobe 正把 Firefly 做成多模型前台,ElevenLabs 語音、Kling 3.0 等夥伴模型陸續進駐,下週留意整合公告。
- 再下一週就是 Google I/O(5/19),Gemini 系的多模態與生成模型動向是重頭戲;V8.1 何時轉正成 Midjourney 預設模型也值得盯。
--- 本週報由 PromptCraft 編輯整理,資料來源含官方公告與當週社群動態([彙整來源](https://www.techosaurus.co.uk/news/2026/05/10/the-ai-roundup-may-bumper/))。