Skip to content
模型版本對照

MODELS

PromptCraft 支援的 22 個主流 AI 模型 + 對應 prompt 數 + 最新版本變更。5 大類:圖像 / 影片 / 音樂 / 對話 / 音訊轉錄(LRC Sync 用)。AI 模型半年一個世代、這頁手動每月維護更新——你 prompt 跑壞了第一個來看這。

最後更新:2026-04 · 下次計畫更新:2026-05

Image圖像生成(6)

  • Midjourney

    v7最新
    Midjourney, Inc. · 2026-03

    影像生成的主流。v7 強化了 photorealism 與 layout 控制。仍走 Discord bot + 網頁版。

    最近變更v7 加入 --style raw 強化、--sref 風格參考更穩、prompt grammar 大致跟 v6 兼容。
  • Flux Pro

    1.1 Ultra最新
    Black Forest Labs · 2026-02

    自然語言友善、不太需要 weight syntax,攝影風 photorealism 強。Ultra 版分辨率推到 4MP。

    最近變更1.1 Ultra 比 1.0 在細節(眼睛、手、字)穩很多。Schnell 版仍是免費快速選項。
  • Stable Diffusion

    3.5 Large最新
    Stability AI · 2026-01

    唯一支援 negative prompt + 完整 CFG / steps / sampler 控制的主流模型。要客製化、要本地跑、要 ComfyUI 工作流選 SD。

    最近變更3.5 Large 取代 3 Medium 為旗艦。SDXL 1.0 仍是主流社群基礎。
  • Ideogram

    3.0最新
    Ideogram · 2026-04

    目前唯一中英文字 100% 渲染穩定的模型。專做 IG 金句卡、海報文字、商標 wordmark。

    最近變更3.0 對中文字渲染質量飛躍式提升。Magic Prompt 功能會自動加 photorealism 修飾語(可關)。
  • Recraft V3

    V3穩定
    Recraft · 2025-10

    向量風格、icon set、illustration 系列圖(風格一致性)的最佳選擇。

  • Adobe Firefly

    Image 4 Ultra穩定
    Adobe · 2026-02

    商用授權最乾淨的模型(資料源來自 Adobe Stock)。Photoshop / Illustrator 內建。

Video影片生成(6)

  • Sora

    2最新
    OpenAI · 2026-03

    20 秒長影片 + 物理一致性 + image-to-video。要排在 ChatGPT Plus / Pro / API access。

    最近變更v2 把 v1 的角色一致性問題大幅改善,鏡頭運動描述能對得上了。
  • Veo

    3.1最新
    Google DeepMind · 2026-03

    8 秒影片 + 內建配音與環境聲。Gemini App / Vertex AI / Flow 都能呼叫。

    最近變更3.1 加入 reference image 支援、speech sync 改善。
  • Kling

    2.0 Master最新
    Kuaishou · 2026-03

    中國產,中文 prompt 友善。10 秒影片,camera control 細緻。

    最近變更2.0 Master 在動作流暢度跟 Sora 拉近差距。
  • Runway Gen-4

    Gen-4穩定
    Runway · 2025-12

    創意工作者老牌選擇,工具鏈最完整(綠幕、合成、軌跡控制)。

  • Pika 2.2

    2.2穩定
    Pika Labs · 2025-11

    短片強項,10 秒內 sketch-to-video 表現好。Discord bot + 網頁。

  • Seedance 2.0

    2.0 Pro最新
    ByteDance · 2026-02

    1080p 5 秒,動作 / 角色 一致性領先同價位。

Music音樂生成(2)

  • Suno

    v5.5最新
    Suno · 2026-04

    音樂生成的主流。4 分鐘長度 + custom mode 讓你寫歌詞、曲式、樂器、人聲風格。

    最近變更v5.5 對中文歌詞發音改善,cover song 模式更穩。Stem 分離是 Pro 功能。
  • Udio

    v1.5穩定
    Udio · 2026-01

    另一個音樂生成主流。某些風格(爵士、古典、世界音樂)比 Suno 細膩。

Chat對話 / 寫作 / Coding(3)

Audio音訊辨識 / 轉錄(LRC Sync 用)(4)

  • Gemini 2.5 Flash (Audio)

    2.5 Flash multimodal最新
    Google · 2026-04

    LRC Sync 工具 v2 的 ☆ Gemini 模式用這個。訓練含音樂理解、是 OpenAI 整家做不到的事 — 對 AI vocoder / Suno 合成歌特別有效(唯一誠實「聽」音訊的 model)。$1/M audio tokens (40x 便宜於 gpt-4o-audio)。

    最近變更支援 9.5 小時音訊上限、20MB inline、generateContent + audioTimestamp 結構化 JSON output。
  • GPT-4o Audio Preview

    gpt-4o-audio-preview穩定
    OpenAI · 2025-03

    LRC Sync 工具 v2 的 ★ HD 模式用這個。多模態 chat completions、可接 audio input + 推理時間戳。但對 AI vocoder 合成歌容易 hallucinate 平均分配時間(已加 CV<5% 偵測自動退點)。$40/M audio tokens。

  • GPT-4o Mini Transcribe

    gpt-4o-mini-transcribe穩定
    OpenAI · 2025-03

    LRC Sync v2 標準模式跟 whisper-1 並行打、拿更準的文字(雙模型 hybrid)。WER 比 whisper-1 低、但無 word-level timestamps(只能補文字、不能拿時間)。$0.003/min。

  • OpenAI Whisper

    whisper-1舊版
    OpenAI · 2022-09

    LRC Sync v2 標準模式用的時間戳來源。OpenAI 唯一支援 word-level timestamps 的模型(其他較新模型都沒有)。對真人錄音準、對 AI vocoder / Suno 合成人聲辨識率低(業界已知盲點)。$0.006/min。

    最近變更雖然舊、但仍是業界唯一 word-level timestamp ASR、被 OpenAI 留著、不太可能再更新。

◆ 看不到你用的模型?

PromptCraft 主要追蹤 7 類主流 AI 模型。如果你在用 Lumalabs Dream Machine、Hailuo、Kling Pro Plus 之類的,寄信給我們 promptcraft@prompt.luvai.net——夠多人問會排進補。