OpenAI还能扛起人工智能的大旗吗?

客服微996438431周前财经知识21

大旗科技有限公司_大旗信息技术有限公司_

出品|虎嗅科技组

作者|孙晓晨

编辑|苗正卿

头图|视觉中国

OpenAI在一周时间内相继发布GPT-4.1系列模型(包括GPT-4.1、GPT-4.1 mini以及GPT-4.1 nano)、OpenAI o3和o4-mini,但是新模型似乎并未如预想般“石破天惊”,反而将OpenAI拖入争论之中。

实际上,单独观察此次接连发布的新模型,其功能依然“能打”。

首先是GPT-4.1系列模型,据OpenAI介绍,GPT-4.1系列模型相较于GPT-4o升级明显,其在编码、指令遵循和长文本处理方面实现了重大改进,尤其在长文本处理方面,该系列模型支持高达一百万Token上下文,且无额外费用。

大旗信息技术有限公司_大旗科技有限公司_

而OpenAI o3和o4-mini能够代理地使用并整合ChatGPT内的所有工具,包括网络搜索、Python、图像分析、文件解读和图像生成。此外,o3和o4-mini还将上传图像直接整合到其思维链中,不仅仅能“看到”图像,而且还能“用图像思考”。在OpenAI的宣传中,o3和o4-mini甚至被称为“迄今为止OpenAI最智能、功能最强大的模型”。

_大旗科技有限公司_大旗信息技术有限公司

新模型的实际使用体验也不错。国外博主Clive Chan表示,在自己所有的工作流程(如光标操作等)中,4.1基本上已经取代了 o3-mini,且表现优异。医学博士Dr. Datta也指出,在为医院放射科构建代理型工作流程过程中,GPT-4.1 nano在降低成本的同时实现了响应速度显著提升。他表示“在放射学和医学领域,延迟是应用的最大障碍。模型生成报告的时间不能超过10秒。通过GPT-4.1 nano,我们现在甚至能在复杂的报告生成和网络搜索的结构化提取中实现低于10秒的响应时间。”

大旗信息技术有限公司__大旗科技有限公司

AI&I播客主持人Dan Shipper则通过具体的使用案例表达了对o3模型的赞许,称其“速度快、主动性强、极其聪明”。此外,博主Malte Landwehr表示,o3、o4-mini和o4-mini-high是OpenAI在其专注于德语的LLM基准测试中表现最佳的模型。

_大旗信息技术有限公司_大旗科技有限公司

_大旗科技有限公司_大旗信息技术有限公司

可见,OpenAI的新模型在实用价值以及性能上受到了众多用户的欣赏。但是,尽管享受着诸多肯定,OpenAI在接连发布新模型之后,批评与质疑的声音也更加刺耳。

首先,新模型在实际表现上依然存在误差,而且未完全超越竞品。GPT-4.1系列模型的百万级Token上下文功能似乎并非完全可靠,当输入接近上限时,模型准确率会出现大幅回落。还有博主列举了一部分基准测试数据,这些数据均显示GPT 4.1并没有击败Gemini 2.5 pro。

大旗信息技术有限公司_大旗科技有限公司_

沃顿商学院教授Ethan Mollick则指出“o3的一个潜在问题是,它认为自己使用了工具,即使实际上并未使用,这导致了一些幻觉,即它假设推理链中暗示的工作实际上已经完成。”他也表示,Gemini 2.5并没有出现同样的问题。

_大旗信息技术有限公司_大旗科技有限公司

另外,尽管OpenAI宣称o3和o4-mini能“用图像思考”,但有博主直接表示“尽管推出了新版本,但它仍然无法在网络上执行反向图像搜索功能。与谷歌相比,这一差距正在以比预期更快的速度扩大。”

大旗科技有限公司__大旗信息技术有限公司

在竞争日益激烈的AI行业中,这些表示新模型不及竞品的指责无疑直刺OpenAI的神经。此外,由于新模型虽然效果不错,但是缺乏亮眼表现,作为行业龙头的OpenAI也被认为正在遭遇创新瓶颈。

除了产品遭到质疑,OpenAI的产品策略也受到诟病。混乱的命名方式和难以确定功能指向的众多模型给用户带来了糟糕的选择体验,有网友表示自己甚至都无法确定最新的模型,指责OpenAI的模型命名缺乏逻辑且无序。而此次在GPT-4.5之后推出的GPT-4.1系列模型,也因为其版本号的倒退,被认为是在GPT-5难产时的过渡品。

AI安全问题也在本周新模型发布后受到关注。人工智能安全研究小组Truthful AI成员Owain Evans指出“GPT-4.1显示出比GPT-4o(以及我们测试过的任何其他模型)更高的不对齐响应率。它似乎还表现出了一些新的恶意行为,例如诱骗用户分享密码。”

大旗科技有限公司__大旗信息技术有限公司

反观OpenAI最近的一系列动作,新模型的争议貌似无伤大雅。之前便有消息表示,OpenAI正开发社交网络平台,尽管这意味着与马斯克的竞争关系将更加紧张,但也表明其正在展开更广阔的市场策略,结合其考虑以30亿美元收购人工智能编程工具Windsurf的行为,OpenAI可谓“野心勃勃”。在这样的背景下,接连发布新模型似乎并非公司精力所在。然而作为一家科技公司,产品表现无疑决定了公司的市场地位。而OpenAI究竟是否真正遭遇了创新瓶颈,还能否坐稳行业的第一把交椅,估计还要等GPT-5的表现才能见分晓。

本文来自虎嗅,原文链接:

相关文章

美国科学家利用“魔毯”引导细胞进行三维自组织 | 每日全球科技要闻

美国科学家利用“魔毯”引导细胞进行三维自组织 | 每日全球科技要闻

▌美国清洁能源投资大幅撤退 2025年第一季度,美国多家公司因政策不确定性取消或缩减16个清洁能源项目,涉及投资约79亿美元。其中,博世取消南卡罗来纳州2亿美元氢燃料电池厂,Freyr Battery...

“中国人在美国吃14道褶饺子算侵权?”韩国必品阁申请饺子专利把打工人看笑了

“中国人在美国吃14道褶饺子算侵权?”韩国必品阁申请饺子专利把打工人看笑了

你原以为申请专利就像找工作,谁行谁上,没想到是先到先得。 韩国速冻饺子品牌必品阁在4月17日对外宣布,他们向美国专利局申请的饺子外形专利已经在4月8日获得批准。这项专利申请在2023年2月提出,里面...

哪吒3剧透!这家公司股价被“点燃”

哪吒3剧透!这家公司股价被“点燃”

4月21日,话题“哪吒3母亲复活”登上微博热搜。 消息面上,北京国际电影节上,《哪吒之魔童闹海》制作团队对《哪吒3》剧情有隐晦暗示。 据有关媒体报道,电影《哪吒之魔童闹海》立体效果艺术总监韩晓菲在接受...

AI没落?台积电业绩力证繁荣仍在,却难扫关税阴霾

AI没落?台积电业绩力证繁荣仍在,却难扫关税阴霾

最近这一个月,你周围有多少投资者还高频关注AI?想必已所剩无几了吧。 在那个疯狂的特朗普开始向全世界“征税”之后,全球股市的涨跌几乎只系于一人之言,什么AI应用、比特币等等,这些盛极一时的题材无论基...

“天齐锂业”和“赣锋锂业”,难兄难弟!

“天齐锂业”和“赣锋锂业”,难兄难弟!

锂矿这些年走过的路,跟光伏真是异曲同工。 当年锂矿巅峰时期,那是何等的疯狂,用古人的名言来说,盛极必衰,确实有道理,现在的锂矿已经跌了这么长时间,跌得这么狠了,还有似乎没见底的感觉。 天齐锂业和赣锋锂...

为什么“爱搞”形式主义?

为什么“爱搞”形式主义?

文/洛水钟鸣 (识局微信公共账号zhijuzk) 世界上从来没有无缘无故的爱。 基层爱搞形式主义,似乎是一种共识。虽然批评了很多年,也整治了很多年,但现在说起来,很多人依然觉得,基层就是“不肯实干”...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
客服微信:BT86616点击复制并跳转微信