模型

Claude 3.5 Sonnet 登顶 SWE-bench，成为最强编程 AI

Anthropic 发布 Claude 3.5 Sonnet，在 SWE-bench Verified 评测中以 49% 的问题解决率位列第一，超越 GPT-4o 和 Gemini 1.5 Pro。SWE-bench 是测试 AI 真实 GitHub Bug 修复能力的权威基准，这一结果意味着 Claude 在自主软件开发任务上已达到人类初级工程师水平。

2024年6月20日来源：Anthropic Blog

ClaudeSWE-bench编程AIAnthropic

阅读原文

本条资讯来源于 Anthropic Blog，点击查看完整报道。

前往 Anthropic Blog

Claude 3.5 Sonnet 登顶 SWE-bench，成为最强编程 AI

Documentation

Getting Started

Learn more