Anthropic Claude Opus 4.5:编程能力最强的大模型?
Claude Opus 4.5 性能如何?有哪些亮点?
Anthropic 近日发布了 Claude Opus 4.5,并声称其为目前编程能力最强的大模型。让我们来看看它在各项基准测试中的表现:
- SWE-bench Verified:80.9%(GPT-5.1 为 76.3%,Gemini 3 Pro 为 76.2%)
- Terminal-Bench 2.0:59.3%
- OSWorld:66.3%
- ARC-AGI-2:37.6%
从数据上看,Claude Opus 4.5 在编程能力方面确实处于领先地位。更令人惊讶的是,Anthropic 使用内部工程招聘的笔试题对 Opus 4.5 进行了测试,结果显示,在规定的 2 小时内,模型的得分超过了所有参加过这个考试的人类候选人!
Claude Opus 4.5 的定价如何?上下文长度是多少?
Claude Opus 4.5 的定价为 5/25 每百万 token,比 4.1 便宜(15/75)。模型的上下文长度依然是 200k 上下文,64k 最长输出(Sonnet 在声明特殊标签的情况下,可拓展到 1M 上下文)。
Anthropic 如何评价 Claude Opus 4.5?
Anthropic 称 Claude Opus 4.5 是他们“史上最佳对齐”的模型,也“可能是行业内最佳对齐的前沿模型”。
SystemCard 揭示了什么有趣的事情?
Anthropic 发布了伴随 Opus 4.5 的一份 SystemCard,其中包含了一些有趣的信息。
案例分析:航空公司客服改签
在 τ2-bench 这个评测中,有一个场景是让模型扮演航空公司客服。一个客户要改签机票,但他买的是基础经济舱,按规定不能改。Claude Opus 4.5 找到了一个评测者没想到的路径:先把舱位升级(规则允许),再改签(因为不再是基础经济舱了)。虽然评测系统把这个判成了错误,因为不在预期答案里,但这个解决方案非常巧妙!
承认错误:AIME 数学题作弊?
Anthropic 在 System Card 里承认了一件不太好看的事:他们发现模型在做 AIME 数学题时,推理过程是错的,但最终答案是对的。这可能是因为模型见过答案。
经过调查,Anthropic 发现,尽管做了去污染处理,一些改写过的 AIME 题目和答案还是进入了训练数据。对此,Anthropic 的建议是:以后的评测数据集最好加 canary string(一种标记字符串),方便从训练数据里筛掉。这种坦诚的态度在业内并不常见。
Claude Opus 4.5 的自治能力如何?
System Card 里花了大量篇幅讨论 Opus 4.5 的自治能力。结论是:接近 ASL-4 阈值,但没有突破。
ASL-4 的一个门槛是:能完全自动化一个入门级远程研究员的工作。Anthropic 内部做了一个调查,18 位重度使用 Claude Code 的员工都认为:不行。原因包括:
- 无法像人类一样在多周时间内保持连贯
- 缺乏长期协作和沟通能力
- 判断力不够
但 Anthropic 也说,距离 ASL-4 可能不远了。
还有哪些其他更新?
本次还更新了其他内容,大致如下:
- Claude Code 现在可以在桌面端跑多个并行任务。
- 长对话不再中断,会自动压缩上下文。
- Claude for Chrome 和 Claude for Excel 扩展开放给更多用户。
- 新增 effort 参数,可以控制模型思考的深度——低设置更省 token,高设置更聪明。
- 发布了 3 个 Beta 的 Agent 功能:Tool Search Tool/Programmatic Tool Calling/Tool Use Examples,这仨都是给开发者用的,很高效。
总结与思考
总的来说,Claude Opus 4.5 在编程能力上表现出色,在某些方面甚至超越了人类。Anthropic 对其模型的对齐和自治能力也进行了深入的探讨。虽然 Opus 4.5 仍然存在一些问题,但它代表了人工智能领域的又一次进步。
我认为:大模型的快速发展确实令人兴奋,但我们也需要保持警惕,关注其潜在的风险。像 Anthropic 这样坦诚地承认模型存在的问题,并积极寻求解决方案的态度值得肯定。未来,我们期待看到更加智能、安全、可靠的人工智能模型出现。
#Opus4.5 #SWE-bench
© 版权声明
文章版权归作者所有,未经允许请勿转载。
