TL;DR
- 本文解決:想跟上 ChatGPT Images 2.0(gpt-image-2)新模型的所有關鍵資訊
- 推薦給:需要做海報、簡報配圖、中文行銷素材的工程師 / PM / 行銷
- 讀完你會知道:它比 DALL-E 3 強在哪、API 怎麼接、真實價格、Thinking Mode 限制、什麼時候該升級
📌 目錄
這篇在講什麼
2026/04/21 OpenAI 發布了 ChatGPT Images 2.0,API 名稱 gpt-image-2。上線 12 小時直接登上 Image Arena 排行榜第一,領先第二名 +242 分 — 這是該榜有史以來最大的領先幅度。
它不是前代 gpt-image-1 的小升級,是整個 OpenAI 影像系列的分水嶺。重點在三件事:字終於拼對了、中日韓原生支援、第一個有推理能力的影像模型。
為什麼這次升級是分水嶺
過去兩年我用 AI 畫圖做簡報、海報、貼文封面,每次都卡在同一個問題:字。
- 海報上的標題字 → 一半是亂碼、一半是外星文
- menu、招牌、UI label → 拼字錯、間距跳
- 中文字 → 根本畫不出來,只能用英文 placeholder 再手動 PS
gpt-image-2 把這三個痛點同時解掉了。
ChatGPT Images 2.0 是什麼
三句話解釋:
- 模型名:
gpt-image-2(API)/ ChatGPT Images 2.0(產品名) - 發布日:2026/04/21
- 取代誰:DALL-E 2 / 3 將於 2026/05/12 下架,gpt-image-1 變成舊版
1. 文字渲染終於可讀
Image Arena 跳到第一名主要就是因為這條。測試者可以直接丟「畫一張 4 種咖啡的 menu,標題寫『晨光咖啡館』」,產出的圖每個字都拼對、間距乾淨。前代模型這種 prompt 都是翻車。
2. 中文、日文、韓文原生支援(CJK)
過去所有影像模型的死穴。現在你直接丟「畫一張『午餐特價 $150』的中文海報」,AI 能正確寫出中文字,不用再自己 PS 補字。對做中文行銷素材、漫畫、課程教材的人這是質變。
3. Thinking Mode — 先想再畫
OpenAI 第一個有原生推理能力的影像模型。開啟後它會:
- Layout reasoning:先規劃版面再下筆
- Web search:畫新品 logo、畫特定建築物時,能上網查資料
- Multi-image batching:一次產多張維持角色一致
- Output verification:畫完自己檢查有沒有錯
4. 一次 8 張、角色連貫
單一 prompt 吐 1-8 張圖,人物外貌、衣服、道具跨張保持一致。做漫畫分鏡、產品系列圖、社群貼文系列的人工作量直接砍 90%。
5. 最高支援 2K 解析度
Aspect ratio 3:1 到 1:3 都能,最大到 2560×1440。做 YouTube 縮圖、社群橫幅、A4 印刷素材都夠。
對比表
直接放四個主流工具的差別:
| 面向 | gpt-image-2 | gpt-image-1 | DALL-E 3 | Midjourney v7 |
|---|---|---|---|---|
| 發布日期 | 2026/04 | 2025 | 2023 | 2025 |
| 英文文字準確 | ✓✓ | △ | ✗ | △ |
| 中日韓文字 | ✓ | ✗ | ✗ | ✗ |
| 推理能力 | ✓ | ✗ | ✗ | ✗ |
| 多圖角色一致 | ✓(8 張) | △ | ✗ | △(需 cref) |
| 最高解析度 | 2560×1440 | 1792×1024 | 1792×1024 | 2048×2048 |
| API 最高單價 | $0.211 | $0.19 | $0.08 | 不開放 API |
| 免費可用 | ✓(基礎) | ✗ | ✓ | ✗ |
- 做中文 / CJK 素材 → 直接換 gpt-image-2,沒別的選擇
- 做產品系列圖(要角色連貫) → gpt-image-2 ≈ Midjourney cref,但 gpt-image-2 更穩
- 純藝術風格圖 → Midjourney 還是美感贏,但差距縮小
API 價格完整拆解
1024×1024 解析度的單張成本:
| Quality | 單價 | 每 1000 張 |
|---|---|---|
| Low | $0.006 | $6 |
| Medium | $0.053 | $53 |
| High | $0.211 | $211 |
- Input:$8 / 百萬 token
- Output:$32 / 百萬 token
- gpt-image-1 high:$0.19/張
- gpt-image-2 high:$0.211/張
- 貴 11%,但品質是另一個等級
- 內部稿 / 草圖 → Low 就夠($0.006 基本免費)
- 正式社群貼文 → Medium ($0.053)
- 印刷品 / 客戶交付 → High ($0.211)
從 0 開始:三步驟接 API
前置需求: Python 3.8+、OpenAI API key。
Step 1:裝 SDK
pip install --upgrade openai
Step 2:設環境變數
export OPENAI_API_KEY="sk-proj-xxxxx"
Step 3:呼叫 gpt-image-2
from openai import OpenAI
client = OpenAI()
response = client.images.generate(
model="gpt-image-2",
prompt="一張『午餐特價 $150』的中文餐廳海報,暖色系、手寫風格",
size="1024x1024",
quality="high",
n=1,
)
image_url = response.data[0].url
關鍵參數:
| 參數 | 可選值 |
|---|---|
model | "gpt-image-2" |
size | "1024x1024" / "1792x1024" / "2560x1440" 等 |
quality | "low" / "medium" / "high" |
n | 1-8(多圖角色連貫需 Thinking Mode + 付費訂閱) |
output_format | "png" / "jpeg" / "webp" |
我實際下的 prompt
三個今天實測的 prompt,可以直接照抄:
中文海報
畫一張繁體中文的課程海報,
標題寫「AI 概論初階班」,
副標寫「給工程師的 Claude Code 實戰」,
背景是深藍色 gradient,
右下角有圓形頭像位置
系列貼文(8 張、角色連貫)
畫 8 張小漫畫,主角是一個戴眼鏡的工程師叫 Bob,
第 1 張他打開 ChatGPT 皺眉頭,
第 2 張他看到 gpt-image-2 發佈驚訝,
第 3 張他打開 Python 寫 API call,
... 每張配一句中文對白
UI mock
畫一張手機 app 登入畫面的 mockup,
App 名叫「日報精靈」,
要有「登入」和「註冊」兩顆按鈕,
背景用淺綠色
三個 prompt 以前都會翻車在「中文亂碼」,現在一次過。
要注意的幾個坑
坑 1:Thinking Mode 要付費
免費版能用 gpt-image-2,但沒有推理能力。意思是:
- 沒有 web search
- 沒有 layout reasoning
- 沒有 output verification
- 多圖角色連貫效果大打折扣
坑 2:2K 解析度還是 experimental
官方標示為實驗性。跑 production 前自己 benchmark,我實測有 10-15% 機率 2K 出圖構圖崩掉(頭被切、字被切)。保守做法:產 1024×1024,再用 upscaler 放大。
坑 3:Rate limit 沒公佈
如果要 batch 產上千張,自己要 throttle。目前觀察大致是每分鐘 50 張 low-quality 以內安全。超過會收到 429。
坑 4:DALL-E 2/3 API 要在 5/12 前換掉
如果你有既有系統還在 call DALL-E 2 或 DALL-E 3 API,2026/05/12 會停機。改成 gpt-image-2 只要換 model 參數字串,其他 API 設計幾乎相容。
心法 / 什麼時候該升級
三個判斷點:
如果你只是偶爾產個人藝術風格圖,Midjourney 還是美感略勝,不急著換。
成本面的觀察: High quality $0.211/張看起來不便宜,但對比「請設計師畫一張海報 $500 起」,一個月產 100 張高品質素材只要 $21。這是我最終決定 all-in 的主要原因。
延伸資源
- Introducing ChatGPT Images 2.0 — OpenAI 官方公告
- OpenAI API 官方文件
- OpenAI Python SDK GitHub
- 本站:用 Claude pptx Skill 做投影片 — 可以搭配 gpt-image-2 做投影片配圖
- 本站:AI 概論初階班 第一堂 Part 1
不怕死,只怕不過癮。
我是陳彥彤,後端工程師 + AI 講師,5-6 年 Java 後端經驗、企業內訓 10-50 場。如果你在企業導入 AI 工具遇到選型問題,歡迎聯繫我諮詢。