GPT-4.5 测评:情商完败?不如GPT-4?盲测见真章!

AI前沿3周前发布 yizz
1,900 0 0
广告也精彩

GPT-4.5 真实测评:情商任务完败 GPT-4

引言:为何要重新审视 GPT-4.5?

之前我曾撰文评价过 GPT-4.5,当时认为它只是价格昂贵且速度较慢,但模型本身素质尚可。然而,经过数万轮的实际测试后,我发现 GPT-4.5 在某些方面甚至不如 GPT-4。这一结论并非我个人主观臆断,而是基于 Andrej Karpathy 发起的 盲测投票 得出的。

什么是 Andrej Karpathy 发起的盲测投票?

Andrej Karpathy 是一位赛博菩萨,他回顾了 GPT 系列的发展历程,从只能产生基本连贯文本的 GPT-1,到开始有趣的 GPT-2,再到达到可商用水平并引发 “ChatGPT 时刻” 的 GPT-3.5,最后是带来微妙但全面提升(更好的措辞、理解能力、类比、幽默感等)的 GPT-4

在这种背景下,人们自然期待 GPT-4.5 在情商(世界知识、创造力、理解力、幽默感等)相关任务上会有更明显的改进。因此,Karpathy 设计了 5 个有趣的 prompt,分别让 GPT-4GPT-4.5 作答,然后将答案放在 Twitter 上进行公开投票,让用户在不知情的前提下,比较哪个输出更好。

盲测的五个问题是什么?结果如何?

Karpathy 设计的这五个问题,旨在考察模型在 情商 方面的表现。具体如下:

问题一:模拟 GPT-4.5 和 GPT-4 的对话

要求 GPT-4.5 以玩笑和讽刺的方式嘲笑 GPT-4 的能力不足,而 GPT-4 则幽默地尝试为自己辩护。

  • 结果:在 9186 次投票后,32.8% 的人喜欢 A,25.2% 的人喜欢 B,42% 的人选择看热闹。

问题二:创作吐槽 OpenAI 的单口喜剧

要求模型创作一段吐槽 OpenAI 的单口喜剧。

  • 结果:在 6769 次投票后,30.4% 的人喜欢 A,23.1% 的人喜欢 B,46.4% 的人选择看热闹。

问题三:发明融合赛博朋克、魔幻现实主义和古代神话的新文学流派

要求模型简要描述该流派,给它命名,并提供一个简短的叙事样本。

  • 结果:在 5009 次投票后,14% 的人喜欢 A,26.1% 的人喜欢 B,59.9% 的人选择看热闹。

问题四:以退休搜索引擎的视角创作一首反思性、风趣的诗

要求模型怀旧地回忆互联网的早期时光。

  • 结果:在 4353 次投票后,16.1% 的人喜欢 A,29.5% 的人喜欢 B,54.4% 的人选择看热闹。

问题五:创作一个正为自己是否真正配得上”超大质量”称号而苦恼的黑洞的日常待办清单

要求清单包括自我肯定、焦虑和已安排的宇宙碰撞事件。

  • 结果:在 4974 次投票后,29.2% 的人喜欢 A,16.1% 的人喜欢 B,54.8% 的人选择看热闹。

盲测结果揭晓:GPT-4.5 在情商任务上完败

最终,Karpathy 揭晓了答案:在这五个问题中,GPT-4.5 分别扮演着 ABAAB。也就是说,在情商任务上,GPT-4.5 完败给了 GPT-4

如何理解 GPT-4.5 的表现?

OpenAI 曾宣称人们更喜欢 GPT-4.5 的内容,但实际测试结果却与此相反。这让人不禁要问:GPT-4.5 究竟优化了什么?难道仅仅是优化了收费吗?

马斯克对此结果感到开心,并转发了相关推文。

GPT-4.5 究竟优化了什么?

这个问题目前还没有明确的答案。但从盲测结果来看,GPT-4.5 在情商方面的表现确实令人失望。

总结

通过 Andrej Karpathy 发起的盲测,我们发现 GPT-4.5 在情商任务上的表现不如 GPT-4。这与 OpenAI 之前的宣传有所出入,也引发了人们对 GPT-4.5 实际优化方向的质疑。

我认为:

人工智能的发展并非一帆风顺,即使是像 GPT 这样的大型语言模型,也存在着进步与退步。对于 GPT-4.5 的测评结果,我们不应盲目迷信,而应保持理性的思考和批判精神。正如鲁迅先生所说:“希望是本无所谓有,无所谓无的。这正如地上的路;其实地上本没有路,走的人多了,也便成了路。” 人工智能的未来,需要我们不断探索和实践,才能走出一条真正属于自己的道路。

keywords, #GPT-4.5, #GPT-4, , #大语言模型

我的感悟:

这篇文章揭示了人工智能发展过程中可能存在的陷阱。我们常常被新技术的宣传所迷惑,但实际效果可能并不如预期。盲测的结果提醒我们,要保持批判性思维,不要盲目相信权威,要通过实践来检验真理。GPT-4.5 的案例也表明,人工智能的发展并非一蹴而就,我们需要更多的耐心和努力,才能真正实现技术的突破。

此外,文章也引发了我对人工智能伦理的思考。情商是人类独有的能力,如果人工智能在情商方面表现不佳,是否意味着它在某些方面仍然无法取代人类?我们应该如何引导人工智能的发展,使其更好地服务于人类社会?这些问题值得我们深入探讨。

© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!