DeepSeek-R1在Introduction部分提到,R1通过酌量冷驱动数据、多阶段检会管谈和纯强化学习少女 自慰,显赫教育了大型言语模子的推理才调,终显著与OpenAI的o1系列模子相等的性能,并通过蒸馏本事将推理才调传递给更小的模子。
图片少女 自慰
DeepSeek-R1在Contributions部分要点提到两个孝敬:(1)检会后:在基础模子上进行大领域强化学习。通过在基础模子上径直应用大领域强化学习,到手成立出具备自我考据和长念念维链等推理才调的DeepSeek-R1。
(2)蒸馏:小模子相似巨大。同期讲明注解了大模子的推理方式可被有用蒸馏到小模子中,终了性能显赫教育。
图片
一、Post-Training:大领域强化学习
LLMs的推理才调仅通过强化学习来激励?DeepSeek-R1-Zero标明大型言语模子(Large Language Models)的推理才调不错仅通过强化学习来激励,而无需监督微调。DeepSeek径直在基础模子上应用强化学习(Reinforcement Learning,简称RL),而不依赖于监督微调(Supervised Fine-Tuning,简称SFT)算作初步步调。这种步调使模子八成探索用于科罚复杂问题的念念维链(Chain of Thought,简称CoT),从而成立出DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我考据、反念念和生成长念念维链等才调,为究诘领域诞生了进犯里程碑。不依赖于监督微调(SFT),仅通过强化学习(RL)来激励大言语模子,来激励LLMs的推理才调。这一本事翻新粉碎为该领域的异日发展铺平了谈路。第一次来自中国的0-1本事翻新让硅谷淆乱,让英伟达市值暴跌。图片
成立DeepSeek-R1的过程是什么?R1过程包含两个强化学习阶段,旨在发现纠正的推理方式并与东谈主类偏好保捏一致,同期还包含两个监督微调阶段,算作模子推理和非推理才调的基础。DeepSeek肯定,该过程将通过创建更好的模子为行业带来益处。图片
二、蒸馏:小模子相似巨大
蒸馏(Distillation)让小模子也相似巨大?大模子的推理方式不错被蒸馏到小模子中,与通过小模子上的强化学习发现的推理方式比拟,这种步调能获取更好的性能。开源的DeepSeek-R1过火应用模范接口API将有助于究诘界在异日蒸馏出更好的袖珍模子。DeepSeek-R1系列蒸馏的小模子在多个基准测试中的评估划定显赫优于之前的开源模子,其中DeepSeek-R1-Distill-Qwen-32B等阐扬尤为凸起,其性能可与o1-mini相比好意思,且DeepSeek已向究诘界开源了基于Qwen2.5和Llama3系列的15亿、70亿、80亿、140亿、320亿和700亿等多个参数领域的搜检点。蒸馏,让小模子相似巨大。又一王炸级别的0-1本事翻新,难怪硅谷一帮大佬坐不住了。因为这一本事翻新被国表里本事东谈主员进行了考据,全球发现按照R1论文的步调不错到手基于DeepSeek-R1蒸馏出性能与o1-mini相比好意思的小模子。再一次跪拜梁文峰大神。图片
怎样蒸馏DeepSeek-R1-Distill-Qwen-32B?通过选拔DeepSeek-R1算作教练模子,Qwen-32B算作学生模子,并准备大领域文本数据集,经过教练模子推理、学生模子检会、亏欠函数联想与优化算法选拔等步调,最终评估与调优得到性能优异的学生模子DeepSeek-R1-Distill-Qwen-32B。
性吧论坛一、笃定模子变装教练模子:选拔性能罕见、学问丰富的DeepSeek-R1算作交流者。
学生模子:采用参数适中、易于蒸馏的Qwen-32B算作学习者。
二、准备数据集数据聚积:整合涵盖平凡领域的高质料文本数据,为蒸馏过程奠定基础。
数据预处理:严格筛选和处理数据集,确保蒸馏划定不受数据质料影响。
三、模子检会与蒸馏教练模子推理:DeepSeek-R1输出软标签和中间层特征,算作Qwen-32B的学习标杆。
学生模子检会:Qwen-32B师法DeepSeek-R1的有贪图,秉承其学问和训戒。
亏欠函数联想:接纳KL散度或交叉熵等,揣度学生模子与教练模子的输出互异。
优化算法选拔:采用SGD或Adam等算法,更新学生模子参数,最小化亏欠函数。
四、模子评估与调优模子评估:诈欺孤苦测试数据集,比较学生模子与教练模子的阐扬,评估蒸馏划定。
模子调优:笔据评估划定,调遣超参数、优化亏欠函数等,教育蒸馏划定。
图片
本站仅提供存储行状,总共试验均由用户发布,如发现存害或侵权试验,请点击举报。