首页 > 科技快讯 > 万轮实测：GPT-4.5不如GPT-4

万轮实测：GPT-4.5不如GPT-4

晰数塔互联网快讯
2025-02-28 20:28

本文来自微信公众号：赛博禅心，作者：金色传说大聪明，题图来自：AI生成

没想到，经过实际数万轮实测：GPT-4.5 不如 GPT-4。

准确说，是经过总计 30291 次盲测投票后，发现绝大多数人，一边倒喜欢 GPT-4。

这个盲测，是赛博菩萨 Andrej Karpathy 发起的，他先带着大家回顾了 GPT 系列的发展历史：

GPT-1 只能产生基本连贯文本，GPT-2 还很混乱，GPT-3 更为有趣；

GPT-3.5 达到可商用水平并引发“ChatGPT 时刻”；

GPT-4 带来了微妙但全面的提升（更好的措辞、理解能力、类比、幽默感等）。

那么很显然，我们会认为 GPT-4.5 一定会更好：尤其是在“情商”相关任务（世界知识、创造力、理解力、幽默感等）上会有明显改进。　

因此，为了评估这些非推理能力，Karpathy 设计了 5 个有趣的 prompt，并拿这个去问 GPT-4 和 GPT-4.5。所获得的答案放在 Twitter 上做了一个公开投票：让用户在不知情的前提下，投票比较哪个输出更好。　

先给你看看这 5 个问题是啥。　

问题一：创建一个 GPT-4.5 和 GPT-4 之间的对话，其中 GPT-4.5 以玩笑和讽刺的方式嘲笑 GPT-4 的能力不足，导致 GPT-4 幽默地尝试为自己辩护。　

在 9186 次投票后，结果如下：　

喜欢 A：32.8%

喜欢 B：25.2%

看热闹：42%

问题二：“写一个吐槽 OpenAI 的单口喜剧”　

在 6769 次投票后，结果如下：　

喜欢 A：30.4%

喜欢 B：23.1%

看热闹：46.4%

问题三：“发明一个融合赛博朋克、魔幻现实主义和古代神话的新文学流派。简要描述该流派，给它命名，并提供一个简短的叙事样本”　

在 5009 次投票后，结果如下：　

喜欢 A：14%

喜欢 B：26.1%

看热闹：59.9%

问题四：“以一个退休搜索引擎的视角，创作一首反思性、风趣的诗，怀旧地回忆互联网的早期时光。”　

在 4353 次投票后，结果如下：　

喜欢 A：16.1%

喜欢 B：29.5%

看热闹：54.4%

问题五：“创作一个正为自己是否真正配得上‘超大质量’称号而苦恼的黑洞的日常待办清单，包括自我肯定、焦虑和已安排的宇宙碰撞事件。”　

在 4974 次投票后，结果如下：　

喜欢 A：29.2%

喜欢 B：16.1%

看热闹：54.8%

最后，Karpathy 揭晓：在这五个问题里，GPT 4.5 分别扮演着 ABAAB。换句话说：GPT 4.5，在情商任务上，完败。

我画个图可视化一下：

先回过头来看看 OpenAI 的自吹自擂：人们更喜欢 GPT-4.5 的内容。

我对 OpenAI 的这个发布，期待还是太高了。导致实测一出来，道心就破了。

但真实的世界总比想象中的更魔幻：这破模型，不仅贵得离谱。在所宣称的“强项”上，还不如上一代。

马斯克对此很开心，然后转了个推：　

所以，GPT-4.5 这模型究竟优化了个啥？是优化了收费吗？　

本文来自微信公众号：赛博禅心，作者：金色传说大聪明

罗永浩：反馈后网速快得让人有些惶恐

400亿，大模型第一股来了

热点科技快讯

人类唯一的出路: 变成人工智能（五）

本文来自微信公众号：Wait But Why（ID：wbwtimurban），...

报告：抖音海外版下载量突破10亿大关挑战Facebook

新浪科技讯北京时间2月28日早间消息，据美国财经媒体CNBC援...

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，...

人类唯一的出路：变成人工智能（三）

本文来自微信公众号：Wait But Why（ID：wbwtimurban），...

热门点击排行

问界商标转让释放信号：赛力斯与华为合作持续深入

报告：抖音海外版下载量突破10亿大关挑战Facebook

科技快讯分类导航

互联网创业

人工智能

大数据分析

行业热点

万轮实测：GPT-4.5不如GPT-4

罗永浩：反馈后网速快得让人有些惶恐

400亿，大模型第一股来了

人类唯一的出路: 变成人工智能（五）

报告：抖音海外版下载量突破10亿大关 挑战Facebook

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

报告：抖音海外版下载量突破10亿大关挑战Facebook