OpenAI 的 o3、o4-mini 與 GPT-4.1：好用的、有問題的、與瘋狂的

2025 年 4 月，OpenAI 在幾週內推出了三款不同定位的模型：GPT-4.1、o3 和 o4-mini。YouTube 創作者給了這波發布一個誇張標題「GPT 5.5 Instant」，但實際上這三款模型都不叫那個名字——GPT-5 要到 2025 年稍晚才發布。儘管如此，這三款模型每一款都有值得深入討論的特點，以及讓開發者皺眉的設計決策。

TL;DR

GPT-4.1：程式碼和指令遵循的專用模型，比 GPT-4o 更準確，適合 API 開發任務，已進入 ChatGPT
o3：目前 OpenAI 最強推理模型，GPQA Diamond 87.7%，但成本高、速度慢
o4-mini：以低成本達到 AIME 2025 最高分，是數學/程式碼任務的驚喜
三款模型中沒有一款叫「GPT 5.5 Instant」——這個標題是創作者自創的

是什麼

GPT-4.1

GPT-4.1 於 2025 年 4 月先在 API 上線，後來因開發者反應熱烈也加入 ChatGPT。它的定位是 GPT-4o 的「精調版本」，重點在兩個方向：

程式碼能力：在 SWE-bench Verified（真實 GitHub issue 修復）上比 GPT-4o 提高明顯，特別在 web 開發、多步驟程式任務上
指令遵循：在系統提示（system prompt）中的格式要求、限制條件的遵守準確率提升，這對需要精確輸出的 API 使用場景很重要

GPT-4.1 的推論速度和成本介於 GPT-4o mini 和 GPT-4o 之間，是追求「夠快、夠準、不要太貴」的中間選擇。

o3

o3 是 o1 的繼承者，採用「extended thinking」推論策略——模型在給出最終答案前會進行多步驟的中間推理過程。這讓它在需要多步邏輯推導的任務上表現大幅超越一般 LLM。

基準成績：

GPQA Diamond（博士級科學選擇題）：87.7%，是目前已知所有公開模型最高分
AIME 2025（數學競賽）：高分但略遜於 o4-mini（見下）
SWE-bench Verified：比 o1 大幅提升

代價是：o3 比 o1 慢，定價也更高。在思考過程展開的情況下，一個複雜問題的回應可能需要數分鐘，費用可能達到幾美分到幾美元。這讓它適合離線批次推論，而非即時互動應用。

o4-mini

o4-mini 是這次發布最讓人意外的一款。名字有「mini」，但在數學和程式碼領域的表現超過了所有人的預期：

AIME 2024 和 2025：兩年的美國數學奧林匹亞試題，o4-mini 達到所有已發布模型的最高分
速度：比 o3 快得多
成本：比 o3 低得多，比較接近 o3-mini 的定價範圍

OpenAI 描述 o4-mini 的目標是「在小型、快速、便宜的情況下最大化數學和程式推理能力」。它的「mini」指的是成本和延遲，不是能力。

為什麼重要

推理能力的分級

這三款模型的存在說明 OpenAI 正在把模型族群分成不同「計算預算」的層次：

GPT-4.1          → 快速、精確的指令遵循（no extended thinking）
o4-mini          → 中等成本的推理能力（controlled thinking）
o3               → 最高推理能力、最高成本（extensive thinking）
GPT-5（稍後）    → 統一的下一代

這個策略讓開發者可以根據任務的難度和預算選擇合適模型，而不是一刀切。

對 AI 編程助理的影響

GPT-4.1 和 o4-mini 的推出讓 Cursor、GitHub Copilot、Windsurf 等 AI 程式碼工具有了更多可選的後端模型。特別是 o4-mini 在 SWE-bench 上的表現，讓「用便宜模型跑複雜修 bug 任務」成為可行選項。

跟其他語言模型的差別

模型	強項	速度	成本（per M input token）	推理模式
GPT-4.1	程式碼、指令遵循	快	$2	標準
o3	科學推理、複雜邏輯	慢	$10	Extended thinking
o4-mini	數學、程式推理	中	$1.1	Controlled thinking
Claude 3.7 Sonnet	均衡、長文	中	$3	標準 + extended
DeepSeek V3	成本效益	中	$0.028	標準
Gemini 2.5 Pro	多模態、長文	中	$1.25	標準