您的位置在:Home
科技新訊
科技新訊
AI模型性能和開發價值之評比
Artificial Analysis 列出每款 AI 模型在三大指標上的表現:Intelligence (智能)、Speed (速度),以及 Price (價格),以這三項作為衡量模型性能和商業應用價值的核心指標。台經社根據Artificial Analysis ,以Intelligence 、Speed ,以及 Price 三項指標比較目前使用 AI 模型,其結果及意涵分析如下。
在智能方面: GPT-5 (high) 以 68 分居首,顯示在綜合智能上領先群雄;其次是 GPT-5 (medium) 66 分、Grok 4.5 65 分與 Sonnet 63 分,這幾款屬於高階封閉模型。Gemini 2.5 與 Claude 4.1 分別 60 與 59 分,顯示 Google 與 Anthropic 系列雖具實力,但略低於 OpenAI 最新版本。中段群包括 gpt-oss-120B 58 分與 Qwen 2.5 (Alibaba) 57 分,反映開源與中國廠牌模型已接近第一梯隊。尾端為 DeepSeek V3.2 (54) 與 Llama 4 Maverick (36) ,顯示開源模型與 Meta 版本在「智能」方面仍落後。整體來看,商用封閉模型(GPT 、Claude 、Gemini )仍居領先,開源模型逐步追趕但尚有明顯差距。
在速度方面: 最快的是 gpt-oss-120B 達 327 tokens/s ,顯示 OpenAI 在 OSS 版本的推論效能極高;其次 Gemini 2.5 Pro 265 與 Flash (Sep) 173 ,屬於 Google 系統的高速表現。GPT-5 (medium) 與 GPT-5 (high) 分別 170 與 155 ,代表高智能版本雖稍慢,但仍維持實用速度。中段為 Llama 4 Maverick 125 與 Qwen 2.35B ~ A2B2 50B 約 125–100 ,速度良好但略慢於頂尖封閉模型。Claude 4.5 、Sonnet 、Opus 約 60–70 ,屬中速;DeepSeek V3.2 (25) 與 Exp (25) 最慢,可能因模型架構或伺服器延遲導致。整體顯示 OpenAI 與 Google 的運行效率最佳,開源與中國系統仍以穩定為主。
在價格方面: 最便宜的是 gpt-oss-120B (0.3 USD) 與 Grok 4 Fast (0.3) ,並列最低成本;接著 DeepSeek V3.2 (0.3) 與 Llama 4 Maverick (0.4) 也極具成本優勢。Gemini 2.5 (0.8) 仍屬低價;Flash (Sep) 與 Qwen 2.35B (2.6) 屬中價位;A2B2 50B 與 GPT-5 (high/medium) 約 3.4 美元,屬於高品質模型的合理成本。Claude 4.5 與 Sonnet (6) 相對昂貴,而 Claude 4.1 與Opus (30) 為所有模型中最貴,成本幾乎是 GPT-5 的十倍。整體來看,低價模型主要來自開源(OpenAI OSS 、DeepSeek 、Llama ),高價則集中於 Anthropic 系列。
台經社總結,若以「智能領先、速度可用、成本合理」三項綜合評估,GPT-5 系列 與 Gemini 2.5 Pro 仍是目前整體表現最均衡的模型,而開源 OSS 與 DeepSeek 系列則在成本競爭上表現突出,適合追求投資報酬極大化的應用場景。「AI 模型性能和商業應用價值之三大衡量指標」請上台經社網頁https://www.bioeconomy.tw/esg/
2025 年 12 月 15 日 (星期一) 農曆十月廿六日