#1
GPT-5
性能王者通用大模型OpenAI · 参数量 2T+ · 上下文 256K
推理能力多模态工具调用长上下文
92.1
MMLU
96.8
HumanEval
94.2
MATH
98.5分
+5.2%
#2
Claude 4 Opus
安全首选通用大模型Anthropic · 参数量 1.5T+ · 上下文 200K
长文档代码生成安全对齐多语言
91.5
MMLU
95.2
HumanEval
93.1
MATH
97.8分
+4.8%
#3
Gemini 2 Ultra
上下文最长多模态大模型Google · 参数量 1.8T+ · 上下文 1M
超长上下文多模态视频理解代码
90.8
MMLU
94.5
HumanEval
92.8
MATH
96.5分
+6.1%
#4
Llama 4 405B
开源之王开源大模型Meta · 参数量 405B · 上下文 128K
开源可商用多语言推理优化工具使用
89.5
MMLU
93.1
HumanEval
91.2
MATH
95.2分
+8.3%
#5
Qwen 3 Max
中文最强通用大模型阿里巴巴 · 参数量 500B+ · 上下文 128K
中文理解代码生成数学推理多模态
88.9
MMLU
92.5
HumanEval
90.8
MATH
94.8分
+7.5%
#6
DeepSeek V3
性价比之王代码大模型DeepSeek · 参数量 236B MoE · 上下文 64K
代码专精数学推理MoE架构高效推理
88.2
MMLU
95.8
HumanEval
92.1
MATH
94.5分
+12.1%
#7
文心一言 5.0
通用大模型百度 · 参数量 300B+ · 上下文 100K
中文优化知识增强多模态插件生态
87.5
MMLU
90.2
HumanEval
89.5
MATH
93.2分
+5.8%
#8
Mistral Large 2
欧洲之光通用大模型Mistral AI · 参数量 123B · 上下文 64K
高效架构多语言函数调用代码生成
88.1
MMLU
91.5
HumanEval
89.8
MATH
93.8分
+9.2%