08/04/2026

PressMega

AI人工智能報道資訊網站

駐派AI開源GLM-5.1大模型SWE-Bench Pro實測:超越GPT-5.4、Claude Opus。

PressMega


service@sunmedia.tw (商傳媒 SUN MEDIA)

\"\"

商傳媒|葉安庭/綜合外電報導

中國人工智慧新創公司駐派人工智慧(Z.ai)昨日正式發布其最新開源大語言模型GLM-5.1,並採用寬鬆的MIT授權協議。這款模型在多項指標上展現卓越性能,特別是在衡量程式編寫能力的SWE-Bench Pro基準測試中,以58.4分的成績超越了GPT-5.4的57.7分與Claude Opus 4.6的57.3分,引發業界高度關注。

GLM-5.1模型核心亮點在於其創新的「智能體工程(agentic engineering)」設計,能夠在單一任務上自主運行長達八小時。這標誌著AI在軟體開發領域從輔助編程邁向更深層次的自主執行。該模型擁有7,540億參數,採用混合專家(Mixture-of-Experts)架構,並具備高達202,752個詞元(token)的上下文窗口,使其能夠處理複雜且耗時的任務。

駐派人工智慧指出,GLM-5.1的技術突破在於其透過「階梯式最佳化」機制,有效避免了先前模型常見的效能停滯現象。例如,在針對高效能向量資料庫(VectorDBBench)的測試中,GLM-5.1透過655次迭代及逾6,000次工具調用,最終將每秒查詢次數(QPS)最佳化至21,500次,相較於之前模型最佳表現提升約六倍。

除了SWE-Bench Pro的亮眼成績,GLM-5.1在其他專業基準測試中亦表現不俗。它在KernelBench Level 3測試中實現3.6倍的幾何平均加速(雖然仍略遜於Claude Opus 4.6的4.2倍)。在Terminal-Bench 2.0中,其得分為63.5分;CyberGym上得分68.7分;MCP-Atlas和T3-Bench則分別達到71.8分和70.6分。在邏輯推理領域,GLM-5.1在Humanitys Last Exam測試中,若允許使用外部工具,得分可從31.0躍升至52.3分,並在AIME 2026數學競賽基準測試中取得95.3分。

一位開發者提到,GLM-5.1在任務執行上比其他模型更可靠,且所需提示詞的重工次數更少。駐派人工智慧領導人Lou也在社群平台X上表示,其模型的自主工作時間可能是繼規模定律之後最重要的曲線,而GLM-5.1將是開源社群能親手驗證的第一個里程碑。該公司已將GLM-5.1的模型權重在Hugging Face和ModelScope上公開,支援vLLM、SGLang、xLLM等多種推論框架進行本地部署,讓開發者能彈性運用。

駐派人工智慧早於2026年初在香港交易所上市,市值達528.3億美元。儘管GLM-5.1採取開源策略,該公司仍提供付費的GLM-5 Turbo閉源模型,專為高速推論和持續性自動化任務設計,API使用費用為每百萬總詞元5.20美元。GLM-5.1的API價格為每百萬總詞元5.80美元。公司坦承,模型在無量化指標的任務中,可靠的自我評估能力以及如何更早脫離局部最佳解等挑戰仍有待克服。

\"\"

想知得更多詳情?立即Click這裡


本文章由Open AI人工智能編寫,僅屬學術用途。
可參考相關同類新聞