DeepSeek-R1 论文解读(通俗易懂版)

引言:让 AI 学会"思考"的新突破 在近年来的人工智能浪潮中,大型语言模型(LLM)如 ChatGPT 已经能回答各种问题,但它们在复杂推理方面仍有不足。所谓复杂推理,比如解决奥数难题、编写复杂代码或进行多步逻辑推导,这些都相当于让 AI “动脑筋"思考多步。以前的 AI 往往容易在这些任务中出错。DeepSeek-R1 的出现标志着一个重要突破:研究者找到了一种新方法,让 AI 通过强化学习反复试错,逐渐学会像人一样多步推理问题更棒的是,DeepSeek-R1 是完全开源的,这意味着任何人都可以使用它,不用依赖收费的商用 AI 服务。下面我们将用通俗的语言介绍 DeepSeek-R1 的核心理念、它是如何训练的,以及它能带来什么应用价值。 核心理念:用强化学习培养 AI 的"逻辑思维” DeepSeek-R1 的核心思想是模拟人类解题的过程来训练 AI。想象我们教一个学生解数学题:一开始学生并不知道怎么下手,但通过不断尝试、犯错、再纠正,他的解题思路会越来越清晰。DeepSeek-R1 的训练就类似这样,只不过这里学生是 AI,老师不是人,而是奖励和惩罚机制。研究者让模型尝试回答各种复杂问题,然后用程序自动检查答案对不对,对正确的过程给予奖励,错误的则不给奖励。在成千上万次这样的训练循环后,模型会倾向于采用能得高分的推理策略,慢慢地就学会了复杂问题的解法。这种训练方法被称为强化学习(Reinforcement Learning),因为模型通过"强化"成功的尝试来学习。DeepSeek-R1 特别之处在于:它在训练初期没有人工示范,完全靠自己摸索。研究者先让一个基础模型(DeepSeek-V3-Base)直接进入强化学习,就像让 AI 小孩自己玩谜题,结果这个模型(称为 DeepSeek-R1-Zero)居然自己悟出了很多强大的解题技巧!比如,它学会了反思自己的答案、尝试不同思路等,这些都是人类优秀解题时会用的策略。可以说,经过强化学习,“小孩"已经变成了有创造力的"数学家”,只是有时候表达还不太通顺。 但是,仅靠自我摸索的 R1-Zero 也有明显的问题:它给出的答案有时很难读懂,甚至会中英混杂,或者回答偏离人们习惯的表达方式。这就好比一个钻研技术的极客,思路很厉害但是说话让人抓不住重点。为了解决这个问题,研究者对模型进行了两次额外的指导调整:第一次是喂给它一些**“冷启动"例子**,相当于给模型打好基础,让它知道回答时基本的礼仪和清晰度。第二次是在强化学习之后,研究者收集了模型在训练中表现优秀的解题示例,再混合一些人工整理的题目,重新训练模型一次。这一步就像老师看到学生自己总结了一些很好的解题方法,帮他整理成笔记巩固学习。经过这两轮调整,模型的表达流畅了,知识面也更广了。这时再让模型进行最后一轮强化学习,让它面对各种类型的问题训练,相当于毕业前的全面模拟考试。最终诞生的 DeepSeek-R1 模型,既有缜密的推理能力,又能用清晰自然的语言给出答案。 总结起来,DeepSeek-R1的训练流程可以用以下步骤概括: 预热训练:先用一些人工整理的问答对,教模型基本的回答规范(确保它回答不牛头不对马嘴)。 自我尝试:不给示范,直接让模型挑战各种推理难题,通过试错积累经验(强化学习阶段)。 优例精炼:收集模型在尝试中表现好的范例答案,再训练模型一次,让它学会用更好的表述和思路回答。 综合考核:最后,再让模型在混合了所有类型问题的环境下强化学习一次,确保它在各方面表现均衡、稳健。 通过这样的流程,DeepSeek-R1就像一个经历了自学、纠错、再学习、再实战的学生,最终成长为解题高手。 能力与表现:媲美顶尖 AI 的开源模型 DeepSeek-R1 经过上述训练,达到了令人惊艳的水平:在许多困难测试上,它的表现几乎追上了目前最强的闭源 AI 模型 OpenAI-o1。例如: 在数学考试中,DeepSeek-R1 的得分与 OpenAI 的顶级模型几乎持平。针对美国高中数学竞赛(AIME)的测试,R1 答对了 79.8% 的问题,而 OpenAI-o1 答对了 79.2%—两者几乎一样好。这说明 R1 已经能够解决非常复杂的数学题,而这往往被视为 AI 难以企及的挑战。更夸张的是,在一份包含 500 道高难度数学题的测验中,R1 的准确率高达 97.3%,和 OpenAI-o1 的 96.4% 相当。可以想象,这样的成绩甚至超过了很多人类参赛者。 在编程方面,DeepSeek-R1 表现出接近资深程序员的水准。研究者让它参加编程竞赛平台 Codeforces 的挑战,结果 R1 的积分相当于超过 96% 的人类选手!OpenAI-o1 也很强,但 R1 略胜一筹。这意味着 R1 不仅会写简单代码,还能解决竞赛级别的算法难题,能够当作编程助手来使用。 在常识问答和知识测验上,DeepSeek-R1 同样表现亮眼。在一个涵盖历史、文学、科学等各种领域知识的 MMLU 考试中,R1 的得分接近 91%,几乎和 OpenAI-o1 不相上下。要知道,这种考试涉及广博的知识和理解能力,R1 展现出接近人类专家的水平。此外,OpenAI 发布的一项新测验 SimpleQA(考查模型回答简单常识问题的准确性),R1 也击败了它的前辈模型 DeepSeek-V3,证明它不仅会推理,连知识问答也更胜一筹。 简单来说,DeepSeek-R1 已经在数学、逻辑和代码这"三座大山"上站到了开源模型的顶峰,甚至与目前最先进的闭源模型平起平坐。这对于开源社区和普通用户意义重大:以前这些顶尖能力只存在于少数公司的保密模型中,而现在一个免费开放的模型就能实现。 ...

February 7, 2025 · 2 min

大模型的 Prompt 使用技巧

概述 前段时间在 DeepLearning 学了一门 Prompt 的课程,感觉受益匪浅,因此在这里总结分享一下学习笔记,希望可以帮到大家。 为什么要学习 Prompt ? 因为在未来的 AIGC 年代,学习有效的 Promot 提示词有效的利用 AI 来完成一些重复性的工作。这也我认为未来每个人都必备的技能之一。 以下是我个人学完这门课程的总结: 更好的完成任务:试想一下,如果你给 AI 一个模糊的问题,那么你得到的只会是一个模糊的回答 多元化的结果:可以让 AI 更多维的结果,但不限于:代码,JSON,XML,HTML 等格式文本,甚至是图片,视频等 避开 AI 的局限:喜欢编造事实,这是目前 AI 已知的缺陷,但有效的 Prompt 可以帮助你有效的避开这个已知,但目前还无法解决的缺陷 不再迷信完美的 Prompt:了解真相后,你将不再迷信类似于 awesome-chatgpt-prompts-zh 各种所谓的魔法,速成的调教指南,因为不存在完美的 Prompt 了解 AI 的能力:目前大模型的能力局限在:摘要,推理,转换,扩展等能力上,目前的 AI 并非无所不能,不要过分神话,也不要过分贬低它 总而言之,学习 Prompt 提示词可以帮助您更好地与 LLM 模型进行交互,指导其生成符合您需求的文本,并提高效率和准确性。也推荐大家有时间可以看完完整的视频课程。我就不过多展开了。以下是我对课程的学习笔记。 第一章: Introduction 引言 第一章节,引言主要介绍和 ChatGPT 或类似的 LLM 交流时,要遵循的几个基本原则,如下: 明确的指令:清晰的指令会得到更准确的回复。例如,而不是问 “我应该吃什么?",你可以问 “我应该在素食饮食中添加哪些蛋白质来源 ?” 合理的期待:模型的知识储备和它的训练参数和训练方向有关,例如对于 ChatGPT 这样一个作为通用领域的大模型,对于一些特别复杂、需要深度专业知识,它是无法提供准确的答案的,特定领域的问题必须由特定领域的专用模型来解决。 验证结果:如上,对于特别复杂和专业的问题,AI 有时候会虚构信息,你必须对 AI 的回复进行验证,如果发现了错误,可以尝试用不同的方式提问。 等待 AI 思考的时间:AI 需要理解你的问题,并生成一个有用的响应,这可能需要一些时间,特别是对于复杂的问题。要有一点耐心 以上就是向第一章课程中包含的向 AI 提问的基本原则,希望对你有所帮助。 ...

June 5, 2023 · 2 min