GPT-4.5深度解析：情感升级AI体验？OpenAI最新力作，主要特点全解读！

GPT-4.5深度解析：一次“情感升级”的AI体验？

GPT-4.5是什么？Sam Altman如何评价？

GPT-4.5：OpenAI的最新力作

Sam Altman 宣布 GPT-4.5 已经准备就绪。他表示，这是首个让他感觉像在与一个真正会思考的人对话的模型，甚至惊讶于AI给出的中肯建议。但是，由于模型规模超大且成本高昂，初期只能向Plus用户开放，之后会逐步扩大用户范围。Sam Altman 强调，GPT-4.5 不是一个注重推理的模型，不会在基准测试中创造记录，但它展现了一种不同的智能，具有前所未有的魔力。

GPT-4.5的主要特点是什么？

虽然不是最前沿的模型，但 GPT-4.5 是 OpenAI 目前最大的语言模型，计算效率比 GPT-4 提升了10倍以上。

优势：

多语言能力（MMMLU multilingual）：85.1%，领先其他模型。
多模态任务（MMMU multimodal）：74.4%，比 GPT-4o 提升明显。
科学问答（GPQA science）：71.4%，比 GPT-4o 提升显著。

劣势：

数学能力（AIME ’24）：36.7%，远低于o3-mini的87.3%。
编程能力（SWE-Bench）：38%，比不上o3-mini的61%。

GPT-4.5在SWE-Lancer Diamond测试中表现如何？

在 SWE-Lancer Diamond 测试中，GPT-4.5（32.6%）表现最好。这项测试是 OpenAI 最近开源的一个软件工程评估基准。

GPT-4.5在SimpleQA测试中的表现？如何理解？

SimpleQA测试是什么？为何重要？

SimpleQA 测试专门考察模型的事实准确性，虽然名为 “Simple”，但其实难度颇高。

GPT-4.5在SimpleQA测试中表现如何？

GPT-4.5 在 SimpleQA 测试中表现最佳：

准确率：62.5%
幻觉率：37.1%

相比之下，o3-mini 的准确率只有15%，幻觉率高达80.3%。GPT-4.5 的幻觉率大幅降低，比 GPT-4o 降低了近24个百分点，说明其在 “真实性 ” 方面有明显提升，能给出更准确、更可靠的回答。这可能就是 Sam Altman 所说的 “不同类型的智能 ” 的一个体现。

GPT模型进化史：从GPT-1到GPT-4.5经历了什么？

GPT系列模型的演变历程

特斯拉人工智能总监、OpenAI 创始团队成员 @EurekaLabsAI 指出，这让我们能看到大模型发展的一个重要趋势。

GPT-1：勉强能写出通顺的文字。
GPT-2：还是个玩具级别。
GPT-3：开始变得有趣了。
GPT-3.5：首次达到可商用水平，催生了 ChatGPT。
GPT-4：整体提升约20%，但改进比较微妙。

每个0.5版本意味着训练算力增加10倍。

GPT-4.5的特点是什么？

与 GPT-4 相比，GPT-4.5 是一次 “全面小提升”。改进依然很微妙，不容易具体指出，主要在 “情商 ” 相关任务上有进步：

世界知识更丰富
创造力提升
类比更准确
幽默感增强
理解能力更强

但要注意，这只是预训练模型，还没有加入推理能力。在数学、编程等需要推理的任务上，不如o1。OpenAI 可能会用强化学习进一步提升它的思考能力。

GPT-4.5的编程能力如何？基准测试结果说明了什么？

GPT-4.5的编程能力测试结果

OpenAI 用内部题库测试了 GPT-4.5 的编程能力，题目包括18道编程题和97道选择题。GPT-4.5 在编程题上得分79%，和deep research持平，但比o3-mini差了一些（o3-mini在这项测试中拿到了92%的高分）。

GPT-4.5在SWE-bench Verified的测试结果说明了什么？

GPT-4.5 在软件工程能力上的提升并不明显，甚至可以说是令人意外的低：

GPT-4.5 Pre得分35%, Post得分38%，比 GPT-4o 只提升了2-7%。
远低于其他模型：o1达到48%，o3-mini达到61%，deep research更是达到68%。

其中，”Pre/Post ” 主要指的是安全对齐前（Pre-mitigation）和安全对齐后（Post-mitigation），也就是安全微调（safety tuning）之前和之后的状态。

什么是安全对齐（Safety Tuning）？Pre-mitigation和Post-mitigation的区别是什么？

在 OpenAI 这类大模型的文档里，“安全对齐”通常涉及：

Pre-mitigation（对齐前）：模型未经安全微调，可能存在较多风险，比如幻觉、偏见、不符合安全标准的回答等。
Post-mitigation（对齐后）：经过安全微调（Safety Tuning），包括强化学习（RLHF）和安全策略微调，以减少有害输出、增加可控性，使模型更符合安全标准。

GPT-4.5在其他任务中的表现？参数规模与性能提升不成正比？

GPT-4.5在Agentic Tasks和MMLU零样本语言测试中的表现

在 agentic tasks 上的表现并不理想，得分仅为40%，远低于 deep research 的 76%，甚至比 o1 的 36% 还要差。
在 MMLU 零样本语言测试中，o1 在所有语言上表现最好，英语得分 0.923。GPT-4.5 整体略低于 o1，但高于 GPT-4o。主流语言如英语、法语、西班牙语表现较好，小语种如 Yoruba 和 Swahili 得分相对较低。

参数规模与性能提升不成正比？

GPT-4o 大约是 200B 参数
GPT-4 是 1.76T 参数
GPT-4.5 是 OpenAI 最大的模型，参数量应该超过 2T

但性能提升仅仅 1-3%，暗示单纯堆参数量的方法可能已经遇到瓶颈。模型规模从 200B 增加到 2T+，性能提升却如此有限，确实值得深思。

GPT-4.5的价格如何？它的价值体现在哪里？

GPT-4.5的价格

GPT4.5 的输出价格是 GPT-4o 的15倍，是 GPT-4o mini 的250倍。输入价格也是天价：75/1Mtokens，比 GPT-4o 贵30倍。即使是缓存输入也要37.5/1M tokens，比 GPT-4o 贵30倍。

GPT-4.5的价值

GPT-4.5 是一次 “情感升级”：让AI互动更自然更懂得共情，像一个有 “情商 ” 的助手。它的目标不是在基准测试上拿高分，而是让AI变得更贴心，更懂人。

GPT-4.5的技术改进和发布计划

GPT-4.5的技术改进

GPT4.5 是 GPT-4o 的改进版本，采用了 SFT、RLHF 等成熟技术，也引入了新的对齐方法。在技术上，改进了语言处理和推理能力，优化了训练流程，扩充了数据来源。安全性方面与 GPT-4o 相当，经过了偏见和误用风险评估。主要提升是：事实准确性更高，幻觉更少，对话能力增强，能读懂人类微妙的情绪和真实需求。

GPT-4.5的发布计划

目前以 GPT-4.5-preview 发布，后续改进将基于实际使用反馈。

今天起，ChatGPT Pro 用户可以在网页、手机和电脑上试用（研究预览版）；
下周，向 Plus 和 Team 用户开放；
再下周，企业版和教育版用户可用。

ChatGPT 中的功能

支持搜索，可以上传文件和图片，能处理写作和编程任务，暂不支持语音、视频和屏幕共享。

开发者 API

支持函数调用、结构化输出、流式传输、系统消息和视觉能力。

总结

GPT-4.5 虽然在某些基准测试中表现平平，但其在情感理解、事实准确性以及幻觉率降低方面的提升，预示着AI发展的新方向：从追求单纯的性能指标转向更注重用户体验和人机交互的自然性。

我认为：参数的堆砌终有尽时，灵魂的注入方能致远。与其在数字的迷宫中彷徨，不如在人性的旷野上驰骋。真正的智能，不在于冰冷的计算，而在于对人心的洞察。 #GPT-4.5

文章版权归作者所有，未经允许请勿转载。

飞书多维表格+DeepSeek R1：批量自动化处理数据的终极解决方案

AI前沿 # AI # deepseek # prompt

1年前

45,8870

Google AI升级！11个改变生活的更新，家人们速看！

AI前沿

1年前

19,1530

CogVideoX重磅升级！支持图生视频与3D环绕，赋能商用AI视频未来

AI前沿 # AI视频生成 # 图生视频 # 开源视频

2年前

44,9460

微软对OpenAI的投资面临欧盟反垄断审查

AI前沿

2年前

21,3850

GPT-4.5深度解析：情感升级AI体验？OpenAI最新力作，主要特点全解读！

GPT-4.5深度解析：一次“情感升级”的AI体验？

GPT-4.5是什么？Sam Altman如何评价？

GPT-4.5：OpenAI的最新力作

GPT-4.5的主要特点是什么？

GPT-4.5在SWE-Lancer Diamond测试中表现如何？

GPT-4.5在SimpleQA测试中的表现？如何理解？

SimpleQA测试是什么？为何重要？

GPT-4.5在SimpleQA测试中表现如何？

GPT模型进化史：从GPT-1到GPT-4.5经历了什么？

GPT系列模型的演变历程

GPT-4.5的特点是什么？

GPT-4.5的编程能力如何？基准测试结果说明了什么？

GPT-4.5的编程能力测试结果

GPT-4.5在SWE-bench Verified的测试结果说明了什么？

什么是安全对齐（Safety Tuning）？Pre-mitigation和Post-mitigation的区别是什么？

GPT-4.5在其他任务中的表现？参数规模与性能提升不成正比？

GPT-4.5在Agentic Tasks和MMLU零样本语言测试中的表现

参数规模与性能提升不成正比？

GPT-4.5的价格如何？它的价值体现在哪里？

GPT-4.5的价格

GPT-4.5的价值

GPT-4.5的技术改进和发布计划

GPT-4.5的技术改进

GPT-4.5的发布计划

ChatGPT 中的功能

开发者 API

总结

Cursor玩转AI：集成MCP协议，解锁智能交互新姿势！

AI写作掘金术：5分钟6000+？| 三大神器揭秘 | 公众号爆文秘籍

相关文章

飞书多维表格+DeepSeek R1：批量自动化处理数据的终极解决方案

Google AI升级！11个改变生活的更新，家人们速看！

CogVideoX重磅升级！支持图生视频与3D环绕，赋能商用AI视频未来

微软对OpenAI的投资面临欧盟反垄断审查

热门文章

智能体

GPT-4.5深度解析：情感升级AI体验？OpenAI最新力作，主要特点全解读！

GPT-4.5深度解析：一次“情感升级”的AI体验？

GPT-4.5是什么？Sam Altman如何评价？

GPT-4.5：OpenAI的最新力作

GPT-4.5的主要特点是什么？

GPT-4.5在SWE-Lancer Diamond测试中表现如何？

GPT-4.5在SimpleQA测试中的表现？如何理解？

SimpleQA测试是什么？为何重要？

GPT-4.5在SimpleQA测试中表现如何？

GPT模型进化史：从GPT-1到GPT-4.5经历了什么？

GPT系列模型的演变历程

GPT-4.5的特点是什么？

GPT-4.5的编程能力如何？基准测试结果说明了什么？

GPT-4.5的编程能力测试结果

GPT-4.5在SWE-bench Verified的测试结果说明了什么？

什么是安全对齐（Safety Tuning）？Pre-mitigation和Post-mitigation的区别是什么？

GPT-4.5在其他任务中的表现？参数规模与性能提升不成正比？

GPT-4.5在Agentic Tasks和MMLU零样本语言测试中的表现

参数规模与性能提升不成正比？

GPT-4.5的价格如何？它的价值体现在哪里？

GPT-4.5的价格

GPT-4.5的价值

GPT-4.5的技术改进和发布计划

GPT-4.5的技术改进

GPT-4.5的发布计划

ChatGPT 中的功能

开发者 API

总结

Cursor玩转AI：集成MCP协议，解锁智能交互新姿势！

AI写作掘金术：5分钟6000+？| 三大神器揭秘 | 公众号爆文秘籍

相关文章

飞书多维表格+DeepSeek R1：批量自动化处理数据的终极解决方案

Google AI升级！11个改变生活的更新，家人们速看！

CogVideoX重磅升级！支持图生视频与3D环绕，赋能商用AI视频未来

微软对OpenAI的投资面临欧盟反垄断审查

标签云

热门文章

智能体