AI 模型对比

主流 AI 模型横向对比:能力评分、价格、上下文窗口与 Benchmark 排名

14

收录模型

6

开源模型

7

多模态

7

家厂商

主流模型对比

DeepSeek-R1

DeepSeek

开源

专为复杂推理设计,数学/逻辑/代码能力与 o1 相当,但完全开源,训练成本仅 3%

上下文窗口

64K

输入价格

$0.55 / 1M

推理能力
代码能力
响应速度
官网

DeepSeek-V3

DeepSeek

开源

国产旗舰模型,代码和数学能力媲美 Claude,价格仅为 OpenAI 的 5%,性价比之王

上下文窗口

64K

输入价格

$0.27 / 1M

推理能力
代码能力
响应速度
官网

Gemini 2.0 Flash

Google

多模态

Google 最新 Agentic 模型,百万 Token 超长上下文,原生支持工具调用,价格极低

上下文窗口

1M

输入价格

$0.1 / 1M

推理能力
代码能力
响应速度
官网

Qwen2.5-Coder

Alibaba

开源

阿里代码专项模型,代码能力超越 Claude 3.5 Sonnet,HumanEval 98.5%,完全开源

上下文窗口

128K

输入价格

开源免费

推理能力
代码能力
响应速度
官网

o1-preview

OpenAI

OpenAI 推理专项模型,深度思考后回答,数学/科学/代码复杂问题表现最强,但速度慢

上下文窗口

128K

输入价格

$15 / 1M

推理能力
代码能力
响应速度
官网

Claude 3.5 Sonnet

Anthropic

多模态

Anthropic 最强编程模型,SWE-bench 第一,代码质量和指令遵循能力顶级,Agent 任务表现优异

上下文窗口

200K

输入价格

$3 / 1M

推理能力
代码能力
响应速度
官网

GPT-4o

OpenAI

多模态

OpenAI 旗舰多模态模型,视觉/语音/文字全能,响应速度快,生态最完善

上下文窗口

128K

输入价格

$5 / 1M

推理能力
代码能力
响应速度
官网

Llama 3.3 70B

Meta

开源

Meta 最新开源旗舰,700 亿参数,可自托管,商业友好 License,性能逼近闭源模型

上下文窗口

128K

输入价格

开源免费

推理能力
代码能力
响应速度
官网

Mistral Large

Mistral

欧洲最强 AI 模型,多语言能力出色,支持 Function Calling,适合欧洲合规场景

上下文窗口

128K

输入价格

$2 / 1M

推理能力
代码能力
响应速度
官网

Qwen2.5-72B

Alibaba

开源多模态

阿里巴巴通义千问最新旗舰,中文能力国内最强,完全开源,支持多模态

上下文窗口

128K

输入价格

开源免费

推理能力
代码能力
响应速度
官网

GPT-4o mini

OpenAI

多模态

GPT-4o 轻量版,速度比 GPT-4o 快 3 倍,价格降低 95%,适合高并发 Agent 场景

上下文窗口

128K

输入价格

$0.15 / 1M

推理能力
代码能力
响应速度
官网

Gemini 1.5 Pro

Google

多模态

Google 超长上下文专项模型,200 万 Token 窗口,可分析整部代码库或长视频

上下文窗口

2M

输入价格

$3.5 / 1M

推理能力
代码能力
响应速度
官网

Mixtral 8x22B

Mistral

开源

Mistral 旗舰 MoE 架构开源模型,1410 亿参数激活 390 亿,性能与成本的最佳平衡

上下文窗口

64K

输入价格

开源免费

推理能力
代码能力
响应速度
官网

Claude 3 Haiku

Anthropic

多模态

Anthropic 最快最便宜的模型,适合实时对话和高频 API 调用,成本极低

上下文窗口

200K

输入价格

$0.25 / 1M

推理能力
代码能力
响应速度
官网

Benchmark 排行

GAIAAgent

测量 AI Agent 完成真实世界任务的能力,包括多步骤推理、工具使用和信息检索

Claude 3.5 Sonnet

53.6%

SWE-bench Verified代码

基于真实 GitHub Issues 测试 AI 修复代码 Bug 的能力,被认为是最接近真实开发场景的评测

Claude 3.5 Sonnet

49%

HumanEval代码

代码生成能力基准,包含 164 个编程问题,测试从描述直接生成函数的能力

DeepSeek-V3

90.2%

MMLU知识

57个学科的综合知识理解测试,覆盖数学、科学、法律、医学等,评估模型的广泛知识储备

GPT-4o

88.7%

Chatbot Arena用户偏好

基于真实用户盲测投票的偏好排行榜,是最能反映实际用户满意度的评测

Claude 3.5 Sonnet

ELO 1268

HumanEval+代码

OpenAI 发布的代码生成基准,评估模型编写 Python 函数解决算法问题的能力

Qwen2.5-Coder 32B

98.5%

MATH推理

高中到竞赛级别数学问题测试集,考查模型的数学推理和解题能力

o1-preview

94.8%

MMLU Pro知识

涵盖 57 个学科的多任务语言理解基准,是最广泛使用的知识评测集

GPT-4o

88.7%

价格说明

价格为参考值,实际以各厂商官网为准。部分模型提供免费额度或 API 试用。开源模型可自托管,仅需支付算力成本。