模型
Claude 3.5 Sonnet 登顶 SWE-bench,成为最强编程 AI
Anthropic 发布 Claude 3.5 Sonnet,在 SWE-bench Verified 评测中以 49% 的问题解决率位列第一,超越 GPT-4o 和 Gemini 1.5 Pro。SWE-bench 是测试 AI 真实 GitHub Bug 修复能力的权威基准,这一结果意味着 Claude 在自主软件开发任务上已达到人类初级工程师水平。
2024年6月20日来源:Anthropic Blog
ClaudeSWE-bench编程AIAnthropic