GPT-4.5深度解析:一次“情感升级”的AI体验?
GPT-4.5是什么?Sam Altman如何评价?
GPT-4.5:OpenAI的最新力作
Sam Altman 宣布 GPT-4.5 已经准备就绪。他表示,这是首个让他感觉像在与一个真正会思考的人对话的模型,甚至惊讶于AI给出的中肯建议。但是,由于模型规模超大且成本高昂,初期只能向Plus用户开放,之后会逐步扩大用户范围。Sam Altman 强调,GPT-4.5 不是一个注重推理的模型,不会在基准测试中创造记录,但它展现了一种不同的智能,具有前所未有的魔力。
GPT-4.5的主要特点是什么?
虽然不是最前沿的模型,但 GPT-4.5 是 OpenAI 目前最大的语言模型,计算效率比 GPT-4 提升了10倍以上。
优势:
- 多语言能力(MMMLU multilingual):85.1%,领先其他模型。
- 多模态任务(MMMU multimodal):74.4%,比 GPT-4o 提升明显。
- 科学问答(GPQA science):71.4%,比 GPT-4o 提升显著。
劣势:
- 数学能力(AIME ’24):36.7%,远低于o3-mini的87.3%。
- 编程能力(SWE-Bench):38%,比不上o3-mini的61%。
GPT-4.5在SWE-Lancer Diamond测试中表现如何?
在 SWE-Lancer Diamond 测试中,GPT-4.5(32.6%)表现最好。这项测试是 OpenAI 最近开源的一个软件工程评估基准。
GPT-4.5在SimpleQA测试中的表现?如何理解?
SimpleQA测试是什么?为何重要?
SimpleQA 测试专门考察模型的事实准确性,虽然名为 “Simple”,但其实难度颇高。
GPT-4.5在SimpleQA测试中表现如何?
GPT-4.5 在 SimpleQA 测试中表现最佳:
- 准确率:62.5%
- 幻觉率:37.1%
相比之下,o3-mini 的准确率只有15%,幻觉率高达80.3%。GPT-4.5 的幻觉率大幅降低,比 GPT-4o 降低了近24个百分点,说明其在 “真实性 ” 方面有明显提升,能给出更准确、更可靠的回答。这可能就是 Sam Altman 所说的 “不同类型的智能 ” 的一个体现。
GPT模型进化史:从GPT-1到GPT-4.5经历了什么?
GPT系列模型的演变历程
特斯拉人工智能总监、OpenAI 创始团队成员 @EurekaLabsAI 指出,这让我们能看到大模型发展的一个重要趋势。
- GPT-1:勉强能写出通顺的文字。
- GPT-2:还是个玩具级别。
- GPT-3:开始变得有趣了。
- GPT-3.5:首次达到可商用水平,催生了 ChatGPT。
- GPT-4:整体提升约20%,但改进比较微妙。
每个0.5版本意味着训练算力增加10倍。
GPT-4.5的特点是什么?
与 GPT-4 相比,GPT-4.5 是一次 “全面小提升”。改进依然很微妙,不容易具体指出,主要在 “情商 ” 相关任务上有进步:
- 世界知识更丰富
- 创造力提升
- 类比更准确
- 幽默感增强
- 理解能力更强
但要注意,这只是预训练模型,还没有加入推理能力。在数学、编程等需要推理的任务上,不如o1。OpenAI 可能会用强化学习进一步提升它的思考能力。
GPT-4.5的编程能力如何?基准测试结果说明了什么?
GPT-4.5的编程能力测试结果
OpenAI 用内部题库测试了 GPT-4.5 的编程能力,题目包括18道编程题和97道选择题。GPT-4.5 在编程题上得分79%,和deep research持平,但比o3-mini差了一些(o3-mini在这项测试中拿到了92%的高分)。
GPT-4.5在SWE-bench Verified的测试结果说明了什么?
GPT-4.5 在软件工程能力上的提升并不明显,甚至可以说是令人意外的低:
- GPT-4.5 Pre得分35%, Post得分38%,比 GPT-4o 只提升了2-7%。
- 远低于其他模型:o1达到48%,o3-mini达到61%,deep research更是达到68%。
其中,”Pre/Post ” 主要指的是安全对齐前(Pre-mitigation)和安全对齐后(Post-mitigation),也就是安全微调(safety tuning)之前和之后的状态。
什么是安全对齐(Safety Tuning)?Pre-mitigation和Post-mitigation的区别是什么?
在 OpenAI 这类大模型的文档里,“安全对齐”通常涉及:
- Pre-mitigation(对齐前):模型未经安全微调,可能存在较多风险,比如幻觉、偏见、不符合安全标准的回答等。
- Post-mitigation(对齐后):经过安全微调(Safety Tuning),包括强化学习(RLHF)和安全策略微调,以减少有害输出、增加可控性,使模型更符合安全标准。
GPT-4.5在其他任务中的表现?参数规模与性能提升不成正比?
GPT-4.5在Agentic Tasks和MMLU零样本语言测试中的表现
- 在 agentic tasks 上的表现并不理想,得分仅为40%,远低于 deep research 的 76%,甚至比 o1 的 36% 还要差。
- 在 MMLU 零样本语言测试中,o1 在所有语言上表现最好,英语得分 0.923。GPT-4.5 整体略低于 o1,但高于 GPT-4o。主流语言如英语、法语、西班牙语表现较好,小语种如 Yoruba 和 Swahili 得分相对较低。
参数规模与性能提升不成正比?
但性能提升仅仅 1-3%,暗示单纯堆参数量的方法可能已经遇到瓶颈。模型规模从 200B 增加到 2T+,性能提升却如此有限,确实值得深思。
GPT-4.5的价格如何?它的价值体现在哪里?
GPT-4.5的价格
GPT4.5 的输出价格是 GPT-4o 的15倍,是 GPT-4o mini 的250倍。输入价格也是天价:75/1Mtokens,比 GPT-4o 贵30倍。即使是缓存输入也要37.5/1M tokens,比 GPT-4o 贵30倍。
GPT-4.5的价值
GPT-4.5 是一次 “情感升级”:让AI互动更自然更懂得共情,像一个有 “情商 ” 的助手。它的目标不是在基准测试上拿高分,而是让AI变得更贴心,更懂人。
GPT-4.5的技术改进和发布计划
GPT-4.5的技术改进
GPT4.5 是 GPT-4o 的改进版本,采用了 SFT、RLHF 等成熟技术,也引入了新的对齐方法。在技术上,改进了语言处理和推理能力,优化了训练流程,扩充了数据来源。安全性方面与 GPT-4o 相当,经过了偏见和误用风险评估。主要提升是:事实准确性更高,幻觉更少,对话能力增强,能读懂人类微妙的情绪和真实需求。
GPT-4.5的发布计划
目前以 GPT-4.5-preview 发布,后续改进将基于实际使用反馈。
- 今天起,ChatGPT Pro 用户可以在网页、手机和电脑上试用(研究预览版);
- 下周,向 Plus 和 Team 用户开放;
- 再下周,企业版和教育版用户可用。
ChatGPT 中的功能
支持搜索,可以上传文件和图片,能处理写作和编程任务,暂不支持语音、视频和屏幕共享。
开发者 API
支持函数调用、结构化输出、流式传输、系统消息和视觉能力。
总结
GPT-4.5 虽然在某些基准测试中表现平平,但其在情感理解、事实准确性以及幻觉率降低方面的提升,预示着AI发展的新方向:从追求单纯的性能指标转向更注重用户体验和人机交互的自然性。
我认为:参数的堆砌终有尽时,灵魂的注入方能致远。与其在数字的迷宫中彷徨,不如在人性的旷野上驰骋。真正的智能,不在于冰冷的计算,而在于对人心的洞察。 #GPT-4.5