GPT-4.5 测评：情商完败？不如GPT-4？盲测见真章！

7,080 0 0

GPT-4.5 真实测评：情商任务完败 GPT-4？

引言：为何要重新审视 GPT-4.5？

之前我曾撰文评价过 GPT-4.5，当时认为它只是价格昂贵且速度较慢，但模型本身素质尚可。然而，经过数万轮的实际测试后，我发现 GPT-4.5 在某些方面甚至不如 GPT-4。这一结论并非我个人主观臆断，而是基于 Andrej Karpathy 发起的 盲测投票 得出的。

什么是 Andrej Karpathy 发起的盲测投票？

Andrej Karpathy 是一位赛博菩萨，他回顾了 GPT 系列的发展历程，从只能产生基本连贯文本的 GPT-1，到开始有趣的 GPT-2，再到达到可商用水平并引发 “ChatGPT 时刻” 的 GPT-3.5，最后是带来微妙但全面提升（更好的措辞、理解能力、类比、幽默感等）的 GPT-4。

在这种背景下，人们自然期待 GPT-4.5 在情商（世界知识、创造力、理解力、幽默感等）相关任务上会有更明显的改进。因此，Karpathy 设计了 5 个有趣的 prompt，分别让 GPT-4 和 GPT-4.5 作答，然后将答案放在 Twitter 上进行公开投票，让用户在不知情的前提下，比较哪个输出更好。

盲测的五个问题是什么？结果如何？

Karpathy 设计的这五个问题，旨在考察模型在情商方面的表现。具体如下：

问题一：模拟 GPT-4.5 和 GPT-4 的对话

要求 GPT-4.5 以玩笑和讽刺的方式嘲笑 GPT-4 的能力不足，而 GPT-4 则幽默地尝试为自己辩护。

结果：在 9186 次投票后，32.8% 的人喜欢 A，25.2% 的人喜欢 B，42% 的人选择看热闹。

问题二：创作吐槽 OpenAI 的单口喜剧

要求模型创作一段吐槽 OpenAI 的单口喜剧。

结果：在 6769 次投票后，30.4% 的人喜欢 A，23.1% 的人喜欢 B，46.4% 的人选择看热闹。

问题三：发明融合赛博朋克、魔幻现实主义和古代神话的新文学流派

要求模型简要描述该流派，给它命名，并提供一个简短的叙事样本。

结果：在 5009 次投票后，14% 的人喜欢 A，26.1% 的人喜欢 B，59.9% 的人选择看热闹。

问题四：以退休搜索引擎的视角创作一首反思性、风趣的诗

要求模型怀旧地回忆互联网的早期时光。

结果：在 4353 次投票后，16.1% 的人喜欢 A，29.5% 的人喜欢 B，54.4% 的人选择看热闹。

问题五：创作一个正为自己是否真正配得上”超大质量”称号而苦恼的黑洞的日常待办清单

要求清单包括自我肯定、焦虑和已安排的宇宙碰撞事件。

结果：在 4974 次投票后，29.2% 的人喜欢 A，16.1% 的人喜欢 B，54.8% 的人选择看热闹。

盲测结果揭晓：GPT-4.5 在情商任务上完败

最终，Karpathy 揭晓了答案：在这五个问题中，GPT-4.5 分别扮演着 ABAAB。也就是说，在情商任务上，GPT-4.5 完败给了 GPT-4。

如何理解 GPT-4.5 的表现？

OpenAI 曾宣称人们更喜欢 GPT-4.5 的内容，但实际测试结果却与此相反。这让人不禁要问：GPT-4.5 究竟优化了什么？难道仅仅是优化了收费吗？

马斯克对此结果感到开心，并转发了相关推文。

GPT-4.5 究竟优化了什么？

这个问题目前还没有明确的答案。但从盲测结果来看，GPT-4.5 在情商方面的表现确实令人失望。

总结

通过 Andrej Karpathy 发起的盲测，我们发现 GPT-4.5 在情商任务上的表现不如 GPT-4。这与 OpenAI 之前的宣传有所出入，也引发了人们对 GPT-4.5 实际优化方向的质疑。

我认为：

人工智能的发展并非一帆风顺，即使是像 GPT 这样的大型语言模型，也存在着进步与退步。对于 GPT-4.5 的测评结果，我们不应盲目迷信，而应保持理性的思考和批判精神。正如鲁迅先生所说：“希望是本无所谓有，无所谓无的。这正如地上的路；其实地上本没有路，走的人多了，也便成了路。” 人工智能的未来，需要我们不断探索和实践，才能走出一条真正属于自己的道路。