Close Menu
    What's Hot

    6金3銀1前4強 國際AI教育協會IAIEA領軍台灣代表隊在2025 Robofest世界機器人大賽再創高峰!

    2025 年 5 月 19 日

    「夏之舞」群育藝術聯展 南投福瑞堂譜盛夏視覺饗宴

    2025 年 5 月 19 日

    台北市水岸住宅再一耀眼新星 億安建設推出高質感作品沐景成青

    2025 年 5 月 19 日
    Facebook X (Twitter) Instagram YouTube
    • 廣告刊登
    • 合作提案
    Facebook Line
    是新聞網
    • 首頁
    • 焦點
    • 政治
    • 財經
    • 生活
    • 地方
      • 大台北地區
      • 宜蘭區
      • 桃竹苗區
      • 中彰投區
      • 雲嘉南區
      • 花東區
      • 高屏區
      • 離島
    • 健康
    • 房產
    • 宗教
    • 旅遊美食
    • 影音
    • 專欄
    • 市快
    是新聞網
    首頁 » OpenAI模型o3評測起爭議 業界籲AI基準測試需揭露真實運算條件
    財經

    OpenAI模型o3評測起爭議 業界籲AI基準測試需揭露真實運算條件

    商傳媒編採中心2025 年 4 月 21 日
    Facebook Twitter Line 電子信箱
    分享
    Facebook Twitter Line 電子信箱


    商傳媒|記者責任編輯/綜合外電報導

    科技媒體《TechCrunch》最新報導,人工智慧領導企業OpenAI推出的o3模型,遭爆實際表現與測試數據不一致的爭議。根據外部研究機構Epoch AI公布第三方測試結果顯示,OpenAI去年底宣稱,o3模型在高難度數學測試集FrontierMath上的正確率達25%,結果實際表現僅約10%,遠低於當初直播中宣傳的成績,引發產業對其測試透明度與評估標準的質疑。

    OpenAI技術人員回應表示,當時展示的是以「高運算設定與內部強化腳本支援」的版本,而近期公開推出的o3模型則為專為「實用性與運行效率優化」的產品版本,因此在標準測試上表現有所差異。

    根據Epoch AI近日公布的測試結果,o3模型在更新版本FrontierMath-2025測試集的答對率約10%,與OpenAI去年直播中聲稱的「超過25%」相距甚遠。研究團隊強調,該差異可能來自於:

    • OpenAI當時使用較小範圍(180題)舊版測試集
    • 測試使用更高階、具高推論能力的模型架構
    • 內部運行環境使用強化運算(aggressive test-time compute)與模型腳手架(scaffold)

    然而,即便如此,OpenAI並未在最初發布成果時,明確標註上述限制,導致部分用戶、開發者對於產品真實性能產生誤解。

    針對評測爭議,OpenAI技術團隊成員Wenda Zhou在上週的直播中回應指出,公開的o3版本已做過優化以適應產品實際需求,「我們希望這個版本更快、更省資源,也更貼近真實使用情境」。Wenda Zhou補充說明:「[o3的公開版本]雖非最強運算配置,但在效率、應用層面具備更好平衡,用戶不需等待數十秒才能得到答案」。

    OpenAI也指出,目前旗下o3-mini-high與o4-mini模型,在FrontierMath測試中的表現已優於原始o3,且預計未來數週內將推出的o3-pro進階版本,應可填補此一性能落差。

    實際上,這並非AI業界首次爆發基準測試爭議。例如:Meta近期承認其部分測試數據來自尚未公開版本,馬斯克旗下xAI則因「誤導性基準圖表」遭批,另外,Epoch AI也曾被質疑延後公開其與OpenAI的資金關係。

    專家認為,隨著生成式AI市場競爭白熱化,企業為爭取媒體曝光與投資信心,往往選擇在最佳情況下公開模型成績,造成評測數據與實際使用體驗不一致。對於仰賴API或OEM應用AI模型的新創與企業來說,模型表現真實性影響決策甚鉅,因此業界呼籲:

    • AI模型商須揭露測試設定與推論資源條件
    • 第三方基準測試機構需保持獨立性與資金透明
    • 投資人與用戶應要求「實測效能報告」而非行銷報表

    資料來源:https://sunmedia.tw/news/technology/OpenAI%E6%A8%A1%E5%9E%8Bo3%E8%A9%95%E6%B8%AC%E8%B5%B7%E7%88%AD%E8%AD%B0-%E6%A5%AD%E7%95%8C%E7%B1%B2AI%E5%9F%BA%E6%BA%96%E6%B8%AC%E8%A9%A6%E9%9C%80%E6%8F%AD%E9%9C%B2%E7%9C%9F%E5%AF%A6%E9%81%8B%E7%AE%97%E6%A2%9D%E4%BB%B6-1745201768151
    分享. Facebook Twitter Line 電子信箱
    編採中心

    優質推薦

    優質推薦

    優質推薦

    相關文章

    影音/2025鹿港慶端陽 六大亮點活動5/30登場

    2025 年 5 月 19 日By 編採中心

    質與量並重 臺中農改場助番石榴果農強化栽培管理能力

    2025 年 5 月 19 日By 編採中心

    先買後付與企業融資租賃將同受規範?學者:監管不分流恐衝擊消費與創業環境

    2025 年 5 月 19 日By 編採中心
    2025暑假佛教3R未來領袖兒童營
    百萬神知識
    復華00929
    豐存股
    豐存股 股利再投入
    我們在這裡
    • Facebook
    宅在台灣
    • 首頁
    • 關於我們
    • 著作權聲明與免責同意書
    • 投書聲明
    • 廣告刊登
    • 合作提案

    希立媒體行銷有限公司   統編93649988

    上方輸入關鍵字並按下 Enter 來搜尋,或按 Esc 鍵取消搜尋。