GPT-5,终于在深夜出炉。
以为很震惊,以为很惊艳?确实有。
但先来看一张图:

OpenAI到底是如何做到在全球直播的场合展示Benchmark,竟然能把52.8显示得比69.1都高,甚至这个69.1能跟30.8平齐的???
其它的不谈,单就这一点,开场直接号称“博士水平”的AI,就这么水灵灵地“按需缩放”坐标系,也是引得网友怒喷不已。

甚至Altman都赶忙出来转移话题,称技术博客上是正确的……

确实,技术博客确实是有所更正。

但如此失误,着实不应该,毕竟大家都等了2年啊!
博士水平的AI,来了
不过有一说一,除了这个被大众诟病的致命失误之外,GPT-5在现场的表现还算是可圈可点。
在技术博客中,OpenAI开场直接一句:“迄今为止,这是我们最智能、最快速、最实用的模型,内置的思考能力让每个人都能拥有专家级智能。”
这次发布的GPT-5拥有四个版本:
GPT-5目前已面向普通用户提供免费、plus和Pro三种模式。
同时在API平台上,推出了GPT-5、GPT-5 nano、GPT-5 mini三种模型选择。
不仅如此,承接昨天时隔6年的开源,OpenAI表示这次GPT-5面向所有人,免费!并且是博士水平的那种。
我们先来看下Benchmark。
最让人吸睛的,还是GPT-5在AIME 2025的表现,直接拿下满分的成绩。

其次就是编程能力,相较于o3和4o,GPT-5在思考模式加持之下,达到了74.9%的水平。

除此之外,这个模型在多种多模态评测中表现出色,覆盖了图像、视频、空间理解和科学推理等方面。
更强的多模态能力,意味着ChatGPT在处理图片和其他非文字信息时更聪明了——比如看懂图表、总结一张演示照片的内容,或者回答关于图示的问题。

而且比较罕见的是,第三方的大模型竞技场(Imarena.ai)也是及时跟进,直接发表声明:“全方面第一”。
具体而言,竞技场涉及的内容包括:文本、Web开发、视觉、编程、数学、创造力、长查询等。

由此可见,GPT-5从目前评测标准来看,确实是AI大模型的卫冕之王。
再看效果
成绩是一方面,但实际效果才是硬道理。
深谙此理的Sam Altman在自己的X账号上也是立马跟进,发布了由GPT-5生成的效果:

并且Altman还表示,有GPT-5权限的用户,只需发送“use beatbot to make a sick beat to celebrategpt-5”即可体验。
不多不说,营销这块,Altman还是非常手拿把掐的。
不过在直播的现场演示过程中,GPT-5还是有不少惊艳的表现在身上的。
例如让GPT-5生成一个学语法的APP,效果是这样的:

不要以为是简单的网站,除了可以完成市面上AI的交互之外,它在里面还可以内嵌一个小游戏(点击“Mouse&Cheese”):

并且若是想改变APP里面的内容,只要一句话,瞬间(现场实测)就可以改变布局:

对于更加庞大且复杂的项目,例如现场OpenAI展示了用GPT-5先编程出来的代码:

在运行之后,便得到了一个3D效果的“世界”:

总而言之,从现场效果来看,GPT-5也是担得起“最聪明、最强编程”的大模型。
“观众”们买单吗?
从目前X上“观众”的反馈来看,讨论最激烈的就是前面我们提到的图表bug。
甚至有网友做了一张简单粗暴的Excel表格来讽刺这次的失误:

不过另一方面,老东家微软CEO火速出面站台,并配有一个“爱心”图片以表支持:

再如开发者们常用的VS Code,官方也是Day 0无缝衔接GPT-5:

不过对于普罗大众来说,反馈声音最大的莫过于:“说好的免费,我的ChatGPT咋没有呢?”
总而言之,用户到底买不买单,实测效果到底有没有那么神,需要让子弹再飞一会了。
1、https://openai.com/index/introducing-gpt-5/
2、https://x.com/EgeErdil2/status/1953505551570415718
来源 | 伯虎财经(bohuFN) 作者 | 楷楷 近两年,以大模型为代表的AI行业,其迭代速度之快,已经远超我们想象。昨日还是聚光灯下的行业明星,明日可能就不得不黯然退场。 近日,AI智能体明星公...
“网上传播的关于公司在某厂商预定大量载板订单、 收入预测、新产品情况、送样及潜在客户、供应链等相关信息,均为误导市场的不实信息。”寒武纪董事长陈天石说。 9月18日,陈天石携财务负责人、董秘叶淏尹等出...
红星资本局12月21日消息,据港交所官网披露,通用人工智能科技公司MiniMax Group Inc.(下称“MiniMax”)已通过港交所聆讯并正式递交招股书。 MiniMax成立于2021年6月,...
当Meta收购Manus消息扩散开时,整个科技圈的反应既在意料之中,又充满了微妙的张力。 整场谈判由扎克伯格亲自操盘,且仅持续了10多天就谈拢了价格。因此它看起来像是小扎在面对2026年更加激烈的A...
从今天开始,就进入春天了,万物复苏,又是一个轮回。 昨天股市大涨,可以称得上是普涨,今天也还行,一片欣欣向荣的景象,像是在喜迎新春。 这张图是借用了新华社的,看着喜庆。 单日的股市涨跌,早就已经对我...
过去一年,国产化已成为人工智能领域的“必答题”。然而,真正的挑战并不在于谁喊得早,而在于能否解决一个更具现实意义的问题:在模型规模持续膨胀、应用深入真实业务场景的背景下,国产算力如何才能实现长期、稳...