人工智能

引言：让 AI 学会"思考"的新突破在近年来的人工智能浪潮中，大型语言模型（LLM）如 ChatGPT 已经能回答各种问题，但它们在复杂推理方面仍有不足。所谓复杂推理，比如解决奥数难题、编写复杂代码或进行多步逻辑推导，这些都相当于让 AI “动脑筋"思考多步。以前的 AI 往往容易在这些任务中出错。DeepSeek-R1 的出现标志着一个重要突破：研究者找到了一种新方法，让 AI 通过强化学习反复试错，逐渐学会像人一样多步推理问题更棒的是，DeepSeek-R1 是完全开源的，这意味着任何人都可以使用它，不用依赖收费的商用 AI 服务。下面我们将用通俗的语言介绍 DeepSeek-R1 的核心理念、它是如何训练的，以及它能带来什么应用价值。核心理念：用强化学习培养 AI 的"逻辑思维” DeepSeek-R1 的核心思想是模拟人类解题的过程来训练 AI。想象我们教一个学生解数学题：一开始学生并不知道怎么下手，但通过不断尝试、犯错、再纠正，他的解题思路会越来越清晰。DeepSeek-R1 的训练就类似这样，只不过这里学生是 AI，老师不是人，而是奖励和惩罚机制。研究者让模型尝试回答各种复杂问题，然后用程序自动检查答案对不对，对正确的过程给予奖励，错误的则不给奖励。在成千上万次这样的训练循环后，模型会倾向于采用能得高分的推理策略，慢慢地就学会了复杂问题的解法。这种训练方法被称为强化学习（Reinforcement Learning），因为模型通过"强化"成功的尝试来学习。DeepSeek-R1 特别之处在于：它在训练初期没有人工示范，完全靠自己摸索。研究者先让一个基础模型（DeepSeek-V3-Base）直接进入强化学习，就像让 AI 小孩自己玩谜题，结果这个模型（称为 DeepSeek-R1-Zero）居然自己悟出了很多强大的解题技巧！比如，它学会了反思自己的答案、尝试不同思路等，这些都是人类优秀解题时会用的策略。可以说，经过强化学习，“小孩"已经变成了有创造力的"数学家”，只是有时候表达还不太通顺。但是，仅靠自我摸索的 R1-Zero 也有明显的问题：它给出的答案有时很难读懂，甚至会中英混杂，或者回答偏离人们习惯的表达方式。这就好比一个钻研技术的极客，思路很厉害但是说话让人抓不住重点。为了解决这个问题，研究者对模型进行了两次额外的指导调整：第一次是喂给它一些**“冷启动"例子**，相当于给模型打好基础，让它知道回答时基本的礼仪和清晰度。第二次是在强化学习之后，研究者收集了模型在训练中表现优秀的解题示例，再混合一些人工整理的题目，重新训练模型一次。这一步就像老师看到学生自己总结了一些很好的解题方法，帮他整理成笔记巩固学习。经过这两轮调整，模型的表达流畅了，知识面也更广了。这时再让模型进行最后一轮强化学习，让它面对各种类型的问题训练，相当于毕业前的全面模拟考试。最终诞生的 DeepSeek-R1 模型，既有缜密的推理能力，又能用清晰自然的语言给出答案。总结起来，DeepSeek-R1的训练流程可以用以下步骤概括：预热训练：先用一些人工整理的问答对，教模型基本的回答规范（确保它回答不牛头不对马嘴）。自我尝试：不给示范，直接让模型挑战各种推理难题，通过试错积累经验（强化学习阶段）。优例精炼：收集模型在尝试中表现好的范例答案，再训练模型一次，让它学会用更好的表述和思路回答。综合考核：最后，再让模型在混合了所有类型问题的环境下强化学习一次，确保它在各方面表现均衡、稳健。通过这样的流程，DeepSeek-R1就像一个经历了自学、纠错、再学习、再实战的学生，最终成长为解题高手。能力与表现：媲美顶尖 AI 的开源模型 DeepSeek-R1 经过上述训练，达到了令人惊艳的水平：在许多困难测试上，它的表现几乎追上了目前最强的闭源 AI 模型 OpenAI-o1。例如：在数学考试中，DeepSeek-R1 的得分与 OpenAI 的顶级模型几乎持平。针对美国高中数学竞赛（AIME）的测试，R1 答对了 79.8% 的问题，而 OpenAI-o1 答对了 79.2%—两者几乎一样好。这说明 R1 已经能够解决非常复杂的数学题，而这往往被视为 AI 难以企及的挑战。更夸张的是，在一份包含 500 道高难度数学题的测验中，R1 的准确率高达 97.3%，和 OpenAI-o1 的 96.4% 相当。可以想象，这样的成绩甚至超过了很多人类参赛者。在编程方面，DeepSeek-R1 表现出接近资深程序员的水准。研究者让它参加编程竞赛平台 Codeforces 的挑战，结果 R1 的积分相当于超过 96% 的人类选手！OpenAI-o1 也很强，但 R1 略胜一筹。这意味着 R1 不仅会写简单代码，还能解决竞赛级别的算法难题，能够当作编程助手来使用。在常识问答和知识测验上，DeepSeek-R1 同样表现亮眼。在一个涵盖历史、文学、科学等各种领域知识的 MMLU 考试中，R1 的得分接近 91%，几乎和 OpenAI-o1 不相上下。要知道，这种考试涉及广博的知识和理解能力，R1 展现出接近人类专家的水平。此外，OpenAI 发布的一项新测验 SimpleQA（考查模型回答简单常识问题的准确性），R1 也击败了它的前辈模型 DeepSeek-V3，证明它不仅会推理，连知识问答也更胜一筹。简单来说，DeepSeek-R1 已经在数学、逻辑和代码这"三座大山"上站到了开源模型的顶峰，甚至与目前最先进的闭源模型平起平坐。这对于开源社区和普通用户意义重大：以前这些顶尖能力只存在于少数公司的保密模型中，而现在一个免费开放的模型就能实现。 ...

概述前段时间在 DeepLearning 学了一门 Prompt 的课程，感觉受益匪浅，因此在这里总结分享一下学习笔记，希望可以帮到大家。为什么要学习 Prompt ？因为在未来的 AIGC 年代，学习有效的 Promot 提示词有效的利用 AI 来完成一些重复性的工作。这也我认为未来每个人都必备的技能之一。以下是我个人学完这门课程的总结：更好的完成任务：试想一下，如果你给 AI 一个模糊的问题，那么你得到的只会是一个模糊的回答多元化的结果：可以让 AI 更多维的结果，但不限于：代码，JSON，XML，HTML 等格式文本，甚至是图片，视频等避开 AI 的局限：喜欢编造事实，这是目前 AI 已知的缺陷，但有效的 Prompt 可以帮助你有效的避开这个已知，但目前还无法解决的缺陷不再迷信完美的 Prompt：了解真相后，你将不再迷信类似于 awesome-chatgpt-prompts-zh 各种所谓的魔法，速成的调教指南，因为不存在完美的 Prompt 了解 AI 的能力：目前大模型的能力局限在：摘要，推理，转换，扩展等能力上，目前的 AI 并非无所不能，不要过分神话，也不要过分贬低它总而言之，学习 Prompt 提示词可以帮助您更好地与 LLM 模型进行交互，指导其生成符合您需求的文本，并提高效率和准确性。也推荐大家有时间可以看完完整的视频课程。我就不过多展开了。以下是我对课程的学习笔记。第一章： Introduction 引言第一章节，引言主要介绍和 ChatGPT 或类似的 LLM 交流时，要遵循的几个基本原则，如下：明确的指令：清晰的指令会得到更准确的回复。例如，而不是问 “我应该吃什么?"，你可以问 “我应该在素食饮食中添加哪些蛋白质来源？” 合理的期待：模型的知识储备和它的训练参数和训练方向有关，例如对于 ChatGPT 这样一个作为通用领域的大模型，对于一些特别复杂、需要深度专业知识，它是无法提供准确的答案的，特定领域的问题必须由特定领域的专用模型来解决。验证结果：如上，对于特别复杂和专业的问题，AI 有时候会虚构信息，你必须对 AI 的回复进行验证，如果发现了错误，可以尝试用不同的方式提问。等待 AI 思考的时间：AI 需要理解你的问题，并生成一个有用的响应，这可能需要一些时间，特别是对于复杂的问题。要有一点耐心以上就是向第一章课程中包含的向 AI 提问的基本原则，希望对你有所帮助。 ...

DeepSeek-R1 论文解读（通俗易懂版）

大模型的 Prompt 使用技巧