MODELS
PromptCraft 支援的 22 個主流 AI 模型 + 對應 prompt 數 + 最新版本變更。5 大類:圖像 / 影片 / 音樂 / 對話 / 音訊轉錄(LRC Sync 用)。AI 模型半年一個世代、這頁手動每月維護更新——你 prompt 跑壞了第一個來看這。
◆ Image圖像生成(6)
Midjourney
v7最新Midjourney, Inc. · 2026-03影像生成的主流。v7 強化了 photorealism 與 layout 控制。仍走 Discord bot + 網頁版。
最近變更v7 加入 --style raw 強化、--sref 風格參考更穩、prompt grammar 大致跟 v6 兼容。Flux Pro
1.1 Ultra最新Black Forest Labs · 2026-02自然語言友善、不太需要 weight syntax,攝影風 photorealism 強。Ultra 版分辨率推到 4MP。
最近變更1.1 Ultra 比 1.0 在細節(眼睛、手、字)穩很多。Schnell 版仍是免費快速選項。Stable Diffusion
3.5 Large最新Stability AI · 2026-01唯一支援 negative prompt + 完整 CFG / steps / sampler 控制的主流模型。要客製化、要本地跑、要 ComfyUI 工作流選 SD。
最近變更3.5 Large 取代 3 Medium 為旗艦。SDXL 1.0 仍是主流社群基礎。Ideogram
3.0最新Ideogram · 2026-04目前唯一中英文字 100% 渲染穩定的模型。專做 IG 金句卡、海報文字、商標 wordmark。
最近變更3.0 對中文字渲染質量飛躍式提升。Magic Prompt 功能會自動加 photorealism 修飾語(可關)。Recraft V3
V3穩定Recraft · 2025-10向量風格、icon set、illustration 系列圖(風格一致性)的最佳選擇。
Adobe Firefly
Image 4 Ultra穩定Adobe · 2026-02商用授權最乾淨的模型(資料源來自 Adobe Stock)。Photoshop / Illustrator 內建。
◆ Video影片生成(6)
Sora
2最新OpenAI · 2026-0320 秒長影片 + 物理一致性 + image-to-video。要排在 ChatGPT Plus / Pro / API access。
最近變更v2 把 v1 的角色一致性問題大幅改善,鏡頭運動描述能對得上了。Veo
3.1最新Google DeepMind · 2026-038 秒影片 + 內建配音與環境聲。Gemini App / Vertex AI / Flow 都能呼叫。
最近變更3.1 加入 reference image 支援、speech sync 改善。Kling
2.0 Master最新Kuaishou · 2026-03中國產,中文 prompt 友善。10 秒影片,camera control 細緻。
最近變更2.0 Master 在動作流暢度跟 Sora 拉近差距。Runway Gen-4
Gen-4穩定Runway · 2025-12創意工作者老牌選擇,工具鏈最完整(綠幕、合成、軌跡控制)。
Pika 2.2
2.2穩定Pika Labs · 2025-11短片強項,10 秒內 sketch-to-video 表現好。Discord bot + 網頁。
Seedance 2.0
2.0 Pro最新ByteDance · 2026-021080p 5 秒,動作 / 角色 一致性領先同價位。
◆ Music音樂生成(2)
Suno
v5.5最新Suno · 2026-04音樂生成的主流。4 分鐘長度 + custom mode 讓你寫歌詞、曲式、樂器、人聲風格。
最近變更v5.5 對中文歌詞發音改善,cover song 模式更穩。Stem 分離是 Pro 功能。Udio
v1.5穩定Udio · 2026-01另一個音樂生成主流。某些風格(爵士、古典、世界音樂)比 Suno 細膩。
◆ Chat對話 / 寫作 / Coding(3)
ChatGPT (GPT-5)
GPT-5最新OpenAI · 2026-02通用 chat、寫作、coding、agentic。Voice mode、Canvas、Custom GPTs 全套。
Claude 4.5
Sonnet 4.5最新Anthropic · 2026-03長文 / 編輯 / 細微指令理解最強。Claude Code / Projects / Computer Use 都可用。
Gemini 2.5 Pro
2.5 Pro Deep Think最新Google · 2026-041M token 上下文 + 多模態(圖、音、影、code)+ Gemini App / AI Studio / Vertex 三層接入。
◆ Audio音訊辨識 / 轉錄(LRC Sync 用)(4)
Gemini 2.5 Flash (Audio)
2.5 Flash multimodal最新Google · 2026-04LRC Sync 工具 v2 的 ☆ Gemini 模式用這個。訓練含音樂理解、是 OpenAI 整家做不到的事 — 對 AI vocoder / Suno 合成歌特別有效(唯一誠實「聽」音訊的 model)。$1/M audio tokens (40x 便宜於 gpt-4o-audio)。
最近變更支援 9.5 小時音訊上限、20MB inline、generateContent + audioTimestamp 結構化 JSON output。GPT-4o Audio Preview
gpt-4o-audio-preview穩定OpenAI · 2025-03LRC Sync 工具 v2 的 ★ HD 模式用這個。多模態 chat completions、可接 audio input + 推理時間戳。但對 AI vocoder 合成歌容易 hallucinate 平均分配時間(已加 CV<5% 偵測自動退點)。$40/M audio tokens。
GPT-4o Mini Transcribe
gpt-4o-mini-transcribe穩定OpenAI · 2025-03LRC Sync v2 標準模式跟 whisper-1 並行打、拿更準的文字(雙模型 hybrid)。WER 比 whisper-1 低、但無 word-level timestamps(只能補文字、不能拿時間)。$0.003/min。
OpenAI Whisper
whisper-1舊版OpenAI · 2022-09LRC Sync v2 標準模式用的時間戳來源。OpenAI 唯一支援 word-level timestamps 的模型(其他較新模型都沒有)。對真人錄音準、對 AI vocoder / Suno 合成人聲辨識率低(業界已知盲點)。$0.006/min。
最近變更雖然舊、但仍是業界唯一 word-level timestamp ASR、被 OpenAI 留著、不太可能再更新。
◆ 看不到你用的模型?
PromptCraft 主要追蹤 7 類主流 AI 模型。如果你在用 Lumalabs Dream Machine、Hailuo、Kling Pro Plus 之類的,寄信給我們 promptcraft@prompt.luvai.net——夠多人問會排進補。