9月18日,梁文锋作为通讯作者,带着DeepSeek-R1的研究,登上最新一期国际顶级期刊《自然》(Nature)封面。
今年1月份,国产大模型公司深度求索(DeepSeek)在预印本平台arxiv公布论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。

图据澎湃新闻
《自然》杂志指出,如此总结DeepSeek-R1带来的进步:如果训练出的大模型能够规划解决问题所需的步骤,那么它们往往能够更好地解决问题。这种“推理”与人类处理更复杂问题的方式类似,但这对人工智能有极大挑战,需要人工干预来添加标签和注释。
DeepSeek-R1模型采用强化学习进行训练。在这种学习中,模型正确解答数学问题时会获得高分奖励,答错则会受到惩罚。最终它学会了推理——逐步解决问题并揭示这些步骤——更有可能得出正确答案。这使得DeepSeek-R1能够自我验证和自我反思,在给出新问题的答案之前检查其性能,从而提高其在编程和研究生水平科学问题上的表现。

图据澎湃新闻
据悉,DeepSeek R1成为首个通过同行评议的主要大语言模型,发表在《自然》杂志的新版DeepSeek-R1论文,与今年1月未经同行评审的初版有较大差异。
在同行评议过程中,DeepSeek团队根据评审意见减少了对模型的拟人化描述,并增加了模型训练的技术细节说明,包括模型训练数据类型和安全性考虑等,并回应了此前关于知识蒸馏的质疑。
DeepSeek明确否认了此前关于其使用OpenAI模型输出进行训练的质疑。在长达64页的同行评审文件中,DeepSeek介绍,DeepSeek-V3 Base(DeepSeek-R1的基座模型)使用的数据全部来自互联网,虽然可能包含GPT-4生成的结果,但绝非有意而为之,更没有专门的蒸馏环节。
今年1月20日,中国AI初创公司深度求索(DeepSeek)推出大模型DeepSeek-R1引爆AI行业,作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAIo1模型正式版,并采用MIT许可协议,支持免费商用、任意修改和衍生开发等。春节假期后,国内多个行业龙头公司均宣布接入DeepSeek。
伴随AI大模型行业的日新月异,DeepSeek已经更新出R1以外的新版本,但万众期待的R2尚未面世。此前8月21日DeepSeek正式发布DeepSeek-V3.1,称其为“迈向Agent(智能体)时代的第一步”。
据介绍,V3.1包含三大主要变化。首先,V3.1采用混合推理架构,一个模型同时支持思考模式与非思考模式;其次,V3.1具有更高的思考效率,相比DeepSeek-R1-0528,DeepSeek-V3.1-Think能在更短时间内给出答案;另外,V3.1具有更强的Agent能力,通过Post-Training优化,新模型在工具使用与智能体任务中的表现有较大提升。
当时,DeepSeek表示,DeepSeek-V3.1使用UE8M0FP8Scale的参数精度。UE8M0FP8是针对即将发布的下一代国产芯片设计。这也表明未来基于DeepSeek模型的训练与推理有望更多应用国产AI芯片,助力国产算力生态加速建设。相关表态,一度带动国产芯片算力股价迎来飙升。
来源:澎湃新闻(记者 范佳来)、界面新闻
2025年上半年的中国汽车市场,经历了一场前所未有的洗牌重组。 一边是传统燃油车销量的持续下滑,合资品牌在多个价格带的份额被不断蚕食;另一边是比亚迪、零跑、小米、问界等国产新能源品牌从入门级到豪华级市...
在AGI浪潮的推动下,AI智能体被视为重塑企业运营效率和组织形态的核心驱动力,是下一代企业级应用的关键。 然而,光环之下,也带来不少疑问:Agent的红利最终将流向何方?那些看似酷炫的对话、生成与决策...
常熟银行换了新行长,被称为A股“最年轻”行长。 11月13日,常熟银行(601128.SH)发布公告称,该行执行董事、行长包剑,副行长李勇因工作变动申请辞任。两人此次是提前辞任,较原定任职期限2026...
行业诚信与服务规范是楼市稳健发展的基石,也是消费者“买得放心,卖得安心”的民生所盼。 2026年以来,从国家部委到各地密集出台优化住房公积金政策、发放购房补贴、降低交易税费等房地产新政,核心城市房地...
备受关注的娃哈哈家族信托案迎来新进展。9月26日,香港高等法院宣布驳回宗馥莉的上诉请求,即维持8月1日判案书中关于冻结汇丰银行账户内18亿美元资产的保全命令,但暂缓执行对账户信息的披露命令。 这项裁决...
英国经济遭遇关税冲击波。 今日,英国公布的官方数据显示,受关税冲击,英国4月GDP环比增速由正转负,萎缩程度达0.3%,远超预期的收缩0.1%。另外,4月份英国对美国的商品出口出现了自1997年有记...