Claude Opus 4.5：最强编程大模型？性能、定价与对齐全解析！

AI前沿3个月前发布 yizz

Anthropic Claude Opus 4.5：编程能力最强的大模型？

Claude Opus 4.5 性能如何？有哪些亮点？

Anthropic 近日发布了 Claude Opus 4.5，并声称其为目前编程能力最强的大模型。让我们来看看它在各项基准测试中的表现：

SWE-bench Verified：80.9%（GPT-5.1 为 76.3%，Gemini 3 Pro 为 76.2%）
Terminal-Bench 2.0：59.3%
OSWorld：66.3%
ARC-AGI-2：37.6%

从数据上看，Claude Opus 4.5 在编程能力方面确实处于领先地位。更令人惊讶的是，Anthropic 使用内部工程招聘的笔试题对 Opus 4.5 进行了测试，结果显示，在规定的 2 小时内，模型的得分超过了所有参加过这个考试的人类候选人！

Claude Opus 4.5 的定价如何？上下文长度是多少？

Claude Opus 4.5 的定价为 5/25 每百万 token，比 4.1 便宜（15/75）。模型的上下文长度依然是 200k 上下文，64k 最长输出（Sonnet 在声明特殊标签的情况下，可拓展到 1M 上下文）。

Anthropic 如何评价 Claude Opus 4.5？

Anthropic 称 Claude Opus 4.5 是他们“史上最佳对齐”的模型，也“可能是行业内最佳对齐的前沿模型”。

SystemCard 揭示了什么有趣的事情？

Anthropic 发布了伴随 Opus 4.5 的一份 SystemCard，其中包含了一些有趣的信息。

案例分析：航空公司客服改签

在 τ2-bench 这个评测中，有一个场景是让模型扮演航空公司客服。一个客户要改签机票，但他买的是基础经济舱，按规定不能改。Claude Opus 4.5 找到了一个评测者没想到的路径：先把舱位升级（规则允许），再改签（因为不再是基础经济舱了）。虽然评测系统把这个判成了错误，因为不在预期答案里，但这个解决方案非常巧妙！

承认错误：AIME 数学题作弊？

Anthropic 在 System Card 里承认了一件不太好看的事：他们发现模型在做 AIME 数学题时，推理过程是错的，但最终答案是对的。这可能是因为模型见过答案。

经过调查，Anthropic 发现，尽管做了去污染处理，一些改写过的 AIME 题目和答案还是进入了训练数据。对此，Anthropic 的建议是：以后的评测数据集最好加 canary string（一种标记字符串），方便从训练数据里筛掉。这种坦诚的态度在业内并不常见。

Claude Opus 4.5 的自治能力如何？

System Card 里花了大量篇幅讨论 Opus 4.5 的自治能力。结论是：接近 ASL-4 阈值，但没有突破。

ASL-4 的一个门槛是：能完全自动化一个入门级远程研究员的工作。Anthropic 内部做了一个调查，18 位重度使用 Claude Code 的员工都认为：不行。原因包括：

无法像人类一样在多周时间内保持连贯
缺乏长期协作和沟通能力
判断力不够

但 Anthropic 也说，距离 ASL-4 可能不远了。

还有哪些其他更新？

本次还更新了其他内容，大致如下：

Claude Code 现在可以在桌面端跑多个并行任务。
长对话不再中断，会自动压缩上下文。
Claude for Chrome 和 Claude for Excel 扩展开放给更多用户。
新增 effort 参数，可以控制模型思考的深度——低设置更省 token，高设置更聪明。
发布了 3 个 Beta 的 Agent 功能：Tool Search Tool/Programmatic Tool Calling/Tool Use Examples，这仨都是给开发者用的，很高效。

总结与思考

总的来说，Claude Opus 4.5 在编程能力上表现出色，在某些方面甚至超越了人类。Anthropic 对其模型的对齐和自治能力也进行了深入的探讨。虽然 Opus 4.5 仍然存在一些问题，但它代表了人工智能领域的又一次进步。

我认为：大模型的快速发展确实令人兴奋，但我们也需要保持警惕，关注其潜在的风险。像 Anthropic 这样坦诚地承认模型存在的问题，并积极寻求解决方案的态度值得肯定。未来，我们期待看到更加智能、安全、可靠的人工智能模型出现。

#Opus4.5 #SWE-bench

AI前沿 # Anthropic # claude # Claude Opus 4.5 # Opus # SystemCard # 人工智能 # 大模型 # 编程能力 # 自治能力

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

GPT-4o变“马屁精”？原因竟是OpenAI更新！如何避免AI跪舔？

GPT-4o变“马屁精”？原因竟是OpenAI更新！如何避免AI跪舔？

AI前言 # 4o # AI # AI工具

10个月前

23,3340

无需编程！用无代码工具快速变现你的AI智能体（Coze+zion）

无需编程！用无代码工具快速变现你的AI智能体（Coze+zion）

AI前沿 # AI变现 # AI应用 # AI智能体变现

1年前

26,1520

轻松实现工作自动化：掌握Flowise低代码工具的全攻略！

轻松实现工作自动化：掌握Flowise低代码工具的全攻略！

AI前沿 # Flowise # LangChain # 工作自动化

1年前

25,2600

AI编程效率神器：豆包MarsCode一键Apply，代码优化提速10倍！

AI编程效率神器：豆包MarsCode一键Apply，代码优化提速10倍！

AI前沿 # 一键Apply # 代码优化 # 智能编程

1年前

19,5870

error: Content is protected !!