AI 模型对比

主流 AI 模型横向对比：能力评分、价格、上下文窗口与 Benchmark 排名

收录模型

开源模型

多模态

家厂商

主流模型对比

DeepSeek-R1

DeepSeek

开源

专为复杂推理设计，数学/逻辑/代码能力与 o1 相当，但完全开源，训练成本仅 3%

上下文窗口

64K

输入价格

$0.55 / 1M

推理能力

代码能力

响应速度

官网

DeepSeek-V3

DeepSeek

开源

国产旗舰模型，代码和数学能力媲美 Claude，价格仅为 OpenAI 的 5%，性价比之王

上下文窗口

64K

输入价格

$0.27 / 1M

推理能力

代码能力

响应速度

官网

Gemini 2.0 Flash

Google

多模态

Google 最新 Agentic 模型，百万 Token 超长上下文，原生支持工具调用，价格极低

上下文窗口

输入价格

$0.1 / 1M

推理能力

代码能力

响应速度

官网

Qwen2.5-Coder

Alibaba

开源

阿里代码专项模型，代码能力超越 Claude 3.5 Sonnet，HumanEval 98.5%，完全开源

上下文窗口

128K

输入价格

开源免费

推理能力

代码能力

响应速度

官网

o1-preview

OpenAI

OpenAI 推理专项模型，深度思考后回答，数学/科学/代码复杂问题表现最强，但速度慢

上下文窗口

128K

输入价格

$15 / 1M

推理能力

代码能力

响应速度

官网

Claude 3.5 Sonnet

Anthropic

多模态

Anthropic 最强编程模型，SWE-bench 第一，代码质量和指令遵循能力顶级，Agent 任务表现优异

上下文窗口

200K

输入价格

$3 / 1M

推理能力

代码能力

响应速度

官网

GPT-4o

OpenAI

多模态

OpenAI 旗舰多模态模型，视觉/语音/文字全能，响应速度快，生态最完善

上下文窗口

128K

输入价格

$5 / 1M

推理能力

代码能力

响应速度

官网

Llama 3.3 70B

Mistral Large

Mistral

欧洲最强 AI 模型，多语言能力出色，支持 Function Calling，适合欧洲合规场景

上下文窗口

128K

输入价格

$2 / 1M

推理能力

代码能力

响应速度

官网

Qwen2.5-72B

Alibaba

开源多模态

阿里巴巴通义千问最新旗舰，中文能力国内最强，完全开源，支持多模态

上下文窗口

128K

输入价格

开源免费

推理能力

代码能力

响应速度

官网

GPT-4o mini

OpenAI

多模态

GPT-4o 轻量版，速度比 GPT-4o 快 3 倍，价格降低 95%，适合高并发 Agent 场景

上下文窗口

128K

输入价格

$0.15 / 1M

推理能力

代码能力

响应速度

官网

Gemini 1.5 Pro

Google

多模态

Google 超长上下文专项模型，200 万 Token 窗口，可分析整部代码库或长视频

上下文窗口

输入价格

$3.5 / 1M

推理能力

代码能力

响应速度

官网

Mixtral 8x22B

Mistral

开源

Mistral 旗舰 MoE 架构开源模型，1410 亿参数激活 390 亿，性能与成本的最佳平衡

上下文窗口

64K

输入价格

开源免费

推理能力

代码能力

响应速度

官网

Claude 3 Haiku

Anthropic

多模态

Anthropic 最快最便宜的模型，适合实时对话和高频 API 调用，成本极低

上下文窗口

200K

输入价格

$0.25 / 1M

推理能力

代码能力

响应速度

官网

Benchmark 排行

GAIAAgent

测量 AI Agent 完成真实世界任务的能力，包括多步骤推理、工具使用和信息检索

Claude 3.5 Sonnet

53.6%

SWE-bench Verified代码

基于真实 GitHub Issues 测试 AI 修复代码 Bug 的能力，被认为是最接近真实开发场景的评测

Claude 3.5 Sonnet

49%

HumanEval代码

代码生成能力基准，包含 164 个编程问题，测试从描述直接生成函数的能力

DeepSeek-V3

90.2%

MMLU知识

57个学科的综合知识理解测试，覆盖数学、科学、法律、医学等，评估模型的广泛知识储备

GPT-4o

88.7%

Chatbot Arena用户偏好

基于真实用户盲测投票的偏好排行榜，是最能反映实际用户满意度的评测

Claude 3.5 Sonnet

ELO 1268

HumanEval+代码

OpenAI 发布的代码生成基准，评估模型编写 Python 函数解决算法问题的能力

Qwen2.5-Coder 32B

98.5%

MATH推理

高中到竞赛级别数学问题测试集，考查模型的数学推理和解题能力

o1-preview

94.8%

MMLU Pro知识

涵盖 57 个学科的多任务语言理解基准，是最广泛使用的知识评测集

GPT-4o

88.7%

价格说明

价格为参考值，实际以各厂商官网为准。部分模型提供免费额度或 API 试用。开源模型可自托管，仅需支付算力成本。

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide

AI 模型对比

主流模型对比

DeepSeek-R1

DeepSeek-V3

Gemini 2.0 Flash

Qwen2.5-Coder

o1-preview

Claude 3.5 Sonnet

GPT-4o

Llama 3.3 70B

Mistral Large

Qwen2.5-72B

GPT-4o mini

Gemini 1.5 Pro

Mixtral 8x22B

Claude 3 Haiku

Benchmark 排行

Documentation

Getting Started

Learn more