DeepSeek论文登上《自然》封面，创始人梁文锋为通讯作者，R1成首个接受同行评审的大语言模型

客服微9964384310个月前 (09-22)财经知识138

9月18日，梁文锋作为通讯作者，带着DeepSeek-R1的研究，登上最新一期国际顶级期刊《自然》（Nature）封面。

今年1月份，国产大模型公司深度求索（DeepSeek）在预印本平台arxiv公布论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。

_DeepSeek论文登上《自然》封面，创始人梁文锋为通讯作者，R1成首个接受同行评审的大语言模型_DeepSeek论文登上《自然》封面，创始人梁文锋为通讯作者，R1成首个接受同行评审的大语言模型

图据澎湃新闻

《自然》杂志指出，如此总结DeepSeek-R1带来的进步：如果训练出的大模型能够规划解决问题所需的步骤，那么它们往往能够更好地解决问题。这种“推理”与人类处理更复杂问题的方式类似，但这对人工智能有极大挑战，需要人工干预来添加标签和注释。

DeepSeek-R1模型采用强化学习进行训练。在这种学习中，模型正确解答数学问题时会获得高分奖励，答错则会受到惩罚。最终它学会了推理——逐步解决问题并揭示这些步骤——更有可能得出正确答案。这使得DeepSeek-R1能够自我验证和自我反思，在给出新问题的答案之前检查其性能，从而提高其在编程和研究生水平科学问题上的表现。

图据澎湃新闻

据悉，DeepSeek R1成为首个通过同行评议的主要大语言模型，发表在《自然》杂志的新版DeepSeek-R1论文，与今年1月未经同行评审的初版有较大差异。

在同行评议过程中，DeepSeek团队根据评审意见减少了对模型的拟人化描述，并增加了模型训练的技术细节说明，包括模型训练数据类型和安全性考虑等，并回应了此前关于知识蒸馏的质疑。

DeepSeek明确否认了此前关于其使用OpenAI模型输出进行训练的质疑。在长达64页的同行评审文件中，DeepSeek介绍，DeepSeek-V3 Base（DeepSeek-R1的基座模型）使用的数据全部来自互联网，虽然可能包含GPT-4生成的结果，但绝非有意而为之，更没有专门的蒸馏环节。

今年1月20日，中国AI初创公司深度求索（DeepSeek）推出大模型DeepSeek-R1引爆AI行业，作为一款开源模型，R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAIo1模型正式版，并采用MIT许可协议，支持免费商用、任意修改和衍生开发等。春节假期后，国内多个行业龙头公司均宣布接入DeepSeek。

伴随AI大模型行业的日新月异，DeepSeek已经更新出R1以外的新版本，但万众期待的R2尚未面世。此前8月21日DeepSeek正式发布DeepSeek-V3.1，称其为“迈向Agent（智能体）时代的第一步”。

据介绍，V3.1包含三大主要变化。首先，V3.1采用混合推理架构，一个模型同时支持思考模式与非思考模式；其次，V3.1具有更高的思考效率，相比DeepSeek-R1-0528，DeepSeek-V3.1-Think能在更短时间内给出答案；另外，V3.1具有更强的Agent能力，通过Post-Training优化，新模型在工具使用与智能体任务中的表现有较大提升。

当时，DeepSeek表示，DeepSeek-V3.1使用UE8M0FP8Scale的参数精度。UE8M0FP8是针对即将发布的下一代国产芯片设计。这也表明未来基于DeepSeek模型的训练与推理有望更多应用国产AI芯片，助力国产算力生态加速建设。相关表态，一度带动国产芯片算力股价迎来飙升。

来源：澎湃新闻（记者范佳来）、界面新闻