by Tianshu17
新中登趣谈世界 ------- 景山门, 启鳣帏、成均又新,弦诵一堂春。破朝昏,鸡鸣风雨相亲。数分科,有东西秘文;论同堂,尽南北儒珍。珍重读书身,莫白了青青双鬓。男儿自有真,谁不是良时豪俊? 待培养出,文章气节少年人。
Language
🇨🇳
Publishing Since
12/6/2024
Email Addresses
1 available
Phone Numbers
0 available
March 17, 2025
<p>论文链接:https://arxiv.org/pdf/2501.12948</p><p>论文发表时间:2025年1月22日</p><h2>论文解读</h2><p>DeepSeek-R1是DeepSeek团队于2025年发布的一款通过强化学习(Reinforcement Learning, RL)显著提升推理能力的大型语言模型(LLM)。其核心目标是通过创新的训练方法,突破传统依赖监督微调(SFT)的局限,实现模型在数学、编程、逻辑等复杂任务中的自主推理能力。</p><p><u><strong>一、模型架构与训练方法</strong></u></p><p>1. DeepSeek-R1-Zero:纯强化学习的原始版本</p><ul> <li>训练框架:基于预训练模型DeepSeek-V3-Base,完全跳过监督微调(SFT),直接采用 Group Relative Policy Optimization (GRPO) 算法进行强化学习。</li> <li>奖励设计:结合<strong>准确性奖励</strong>(答案正确性验证)和<strong>格式奖励</strong>(强制推理过程与答案的标签化输出),避免使用复杂的神经奖励模型,降低训练成本并减少奖励滥用风险。</li> <li>性能表现:在AIME 2024数学推理基准测试中,准确率从初始的15.6%提升至71.0%,通过多数投票(64次采样)后达到86.7%,接近OpenAI的o1-0912模型。</li></ul><p>2. DeepSeek-R1:优化版的多阶段训练</p><ul> <li>冷启动数据:引入少量高质量标注数据(如长思维链示例),通过监督微调初始化模型,提升输出的可读性与结构化。</li> <li>四阶段训练流程: <ul> <li><strong>冷启动微调</strong>:优化模型生成清晰推理过程的能力;</li> <li><strong>推理导向的RL</strong>:结合格式与语言一致性奖励,减少中英混杂等问题;</li> <li><strong>拒绝采样与SFT</strong>:生成80万条数据(60万推理任务+20万通用任务)进行二次微调;</li> <li><strong>全面RL对齐</strong>:优化安全性和多场景适应性。</li> </ul> </li> <li>性能提升:在MATH-500测试中达到97.3%准确率,Codeforces编程任务Elo评分2029(超越96%人类选手),综合性能对标OpenAI-o1-1217。</li></ul><p><u><strong>二、关键技术创新</strong></u></p><p>1. GRPO算法</p><ul> <li><strong>高效强化学习</strong>:舍弃传统PPO中的Critic模型,通过组内输出采样的相对优势优化策略,显著降低计算成本。</li> <li><strong>稳定性保障</strong>:引入ε控制学习步长上限、β惩罚参数偏移,缓解灾难性遗忘问题。</li></ul><p>2. 推理能力蒸馏</p><ul> <li><strong>小模型性能跃升</strong>:将DeepSeek-R1生成的80万条数据用于微调开源小模型(如Qwen和Llama系列),使7B参数模型在AIME 2024上达到55.5% Pass@1,超越部分32B模型。</li></ul><p>3. 自我进化与复杂行为涌现</p><ul> <li><strong>反思与多路径探索</strong>:模型在RL训练中自发产生反思机制(重新评估推理步骤)和多策略尝试,无需显式编程。</li> <li>“顿悟时刻”现象:在解决复杂问题时,模型突然修正初始错误策略,类似人类的灵感涌现。</li></ul><p><u><strong>三、性能评估与基准对比</strong></u></p><ul> <li>推理任务:AIME 2024(79.8% Pass@1)、MATH-500(97.3%)、Codeforces(Elo 2029),均与OpenAI顶尖模型持平。</li> <li>知识任务:MMLU(90.8%)、GPQA Diamond(71.5%),超越DeepSeek-V3,略逊于o1-1217。</li> <li>通用任务:AlpacaEval 2.0胜率87.6%,长上下文理解显著优于前代模型。</li></ul><p><u><strong>四、挑战与未来方向</strong></u></p><ul> <li>现存问题:可读性不足、语言混合(如中英混杂)、对提示结构敏感,软件工程任务表现有限。</li> <li>优化方向:提升语言一致性、增强非推理任务能力、优化RL在低效领域(如代码生成)的应用。</li></ul><p><u><strong>五、开源贡献与影响</strong></u></p><ul> <li>模型开源:发布DeepSeek-R1-Zero、DeepSeek-R1及6个蒸馏小模型(1.5B~70B参数),基于Qwen和Llama架构。</li> <li>社区意义:为资源有限的研究者提供高效推理模型,推动AI推理技术的民主化。</li></ul>
March 1, 2025
<p>本期节目录制于2025年01月06日,我们有幸邀请到了青年指挥智皓。智皓本科、研究生均就读于中央音乐学院指挥系,师从中国指挥学会副会长、中央音乐学院指挥系主任、博士生导师陈琳教授,并曾受到多位国际上指挥大师的悉心指导。</p><p>近年来,智皓多次受邀参加国内外重要艺术活动,执棒包括<strong>国内知名游戏交响音乐会</strong>、音乐节等,积累了丰富的实战经验。</p><blockquote>一个指挥的“乐器”是他/她的乐团。</blockquote><p>在这场对话中,我们探讨了指挥的工作,指挥的基本功训练,指挥与作曲家的关系,指挥与乐团的磨合。</p><p>另外,我们进入到一系列的思辨:</p><blockquote>作曲家需要超越时代吗?有能力超越时代吗?</blockquote><blockquote>取悦观众 / 听众和艺术成就是一个矛盾的问题吗?“流行”就不艺术了吗?</blockquote><blockquote>古典乐在中国有没有发展出独特的东西?</blockquote><blockquote>如何讲好中国故事?</blockquote><p>这些问题不仅关乎音乐本身,也触及了艺术与时代的深层关系。</p><h2><u><strong>提纲与亮点</strong></u></h2><p>05:52 指挥的工作,指挥和导演的异同,指挥与乐团的磨合</p><p>19:41 音乐、音乐家、指挥身上的时代烙印;指挥的基本功训练;指挥与作曲家的关系,导演和剧作家的关系</p><p>29:12 当代“按揭”艺术家;“流行”就不艺术了吗;游戏音乐和歌剧</p><p>41:31 指挥的诞生和演变;在歌剧中,指挥会对表演有要求吗?</p><p>52:42 作曲家通过音乐传递出来的文化烙印与民族印记</p><p>01:05:43 古典乐在中国有没有发展出独特的东西?如何讲好中国故事?</p><h2><u><strong>本期百科</strong></u></h2><ul> <li>马勒第二交响曲(Symphony No. 2 - Gustav Mahler):奥地利作曲家马勒创作的宏篇交响曲,因其终章融入合唱与“复活”主题得名,展现生死哲思与管弦乐史诗性。</li> <li>克劳迪奥·阿巴多(Claudio Abbado):意大利指挥家,柏林爱乐乐团前音乐总监,以细腻平衡的声部处理与对现代作品的敏锐诠释闻名。</li> <li>贝多芬第七交响曲(“贝七”)(Ludwig van Beethoven):德国作曲家贝多芬最具舞蹈韵律的交响曲,瓦格纳称其为“舞蹈的神化”。</li> <li>富特文格勒(Wilhelm Furtwängler):德国指挥大师,以即兴式弹性速度与深邃的德奥作品解读著称,代表战前德式浪漫主义指挥学派。</li> <li>卡拉扬(Herbert von Karajan):奥地利指挥家,柏林爱乐乐团传奇首席,追求极致音色与精密控制,被誉为“指挥帝王”。</li> <li>小克莱伯(Carlos Kleiber):奥地利指挥家,以极低演出频率却极高艺术质量闻名,指挥风格兼具爆发力与诗意。</li> <li>游戏音乐的特点:节奏一般比较复杂,最大的区别在于跟多媒体的配合</li> <li>咏叹调(Aria):歌剧中的抒情独唱段落,旋律性强,用于表达角色内心情感。</li> <li>宣叙调(Recitativo):歌剧中的叙事性唱段,模仿语言节奏推进剧情,常作为咏叹调的前导。</li> <li>流派:德奥流派(如:莫扎特):注重结构严谨与理性表达,以交响乐、室内乐为核心,代表德语区古典传统。<br>俄罗斯流派(如:柴科夫斯基《悲怆》):情感浓烈,旋律宽广,常融入民族音乐元素与悲剧性叙事。<br>法国流派(如:德彪西《大海》):追求音色与氛围革新,打破传统调性,开创印象主义音乐风格。<br></li> <li>柴可夫斯基(Pyotr Tchaikovsky):俄罗斯浪漫主义作曲家,作品融合西欧技法与俄式忧郁,代表作《天鹅湖》《悲怆交响曲》。</li> <li>穆索尔斯基(Modest Mussorgsky):俄罗斯民族乐派作曲家,作品粗犷原始,代表作《图画展览会》开创钢琴音画叙事。</li> <li>东正教:基督教分支,礼仪传统深厚,对俄罗斯音乐中宗教合唱与钟声运用影响深远。</li> <li>普鲁士:历史上的德意志王国,军事文化与严谨精神深刻塑造德奥音乐教育体系。</li> <li>伊戈尔·斯特拉文斯基(Igor Stravinsky):美籍俄裔作曲家,中年后移民美国,革新节奏与和声语言,代表作《春之祭》引发现代音乐革命。</li> <li>谢尔盖·拉赫玛尼诺夫(Sergei Rachmaninoff):俄裔作曲家兼钢琴家,晚期浪漫主义代表,作品以宏大旋律与高难度钢琴写作著称。</li> <li>云宫迅音:中国作曲家许镜清为86版《西游记》创作的电子合成器主题曲,开创中西融合影视配乐先河。</li> <li>黑神话悟空:中国游戏科学公司开发的3A级动作游戏,以虚幻引擎5技术重塑《西游记》暗黑奇幻世界观。</li> <li>智取威虎山·打虎上山:现代京剧经典唱段,融合传统西皮快板与革命题材,展现样板戏时代音乐戏剧化特征。加入圆号展现雪原辽阔。</li> <li>郭文景《蜀道难》《愁空山》:中国当代作曲家作品,以川剧高腔、方言入乐,重构李白诗作的音响叙事。</li> <li>室内歌剧《骆驼祥子》:改编自老舍小说的现代歌剧,以小型乐团配置实现京味儿语言与西方歌剧形式的融合实验。</li></ul>
February 18, 2025
<p>论文链接:https://arxiv.org/pdf/2412.19437v1</p><p>论文发布时间:2024年12月27日</p><h2>论文解读</h2><p>DeepSeek-V3 是深度求索(DeepSeek)团队于2024年底推出的开源混合专家(MoE)大语言模型,凭借其创新的架构设计和高效的训练策略,在多项性能评测中达到与顶尖闭源模型(如GPT-4o、Claude-3.5-Sonnet)相当的水平,同时显著降低了训练成本。</p><p><u><strong>一、模型架构与核心创新</strong></u></p><p>1. 混合专家(MoE)架构优化</p><ul> <li>参数规模:总参数6710亿(671B),每个token激活370亿(37B)参数,通过稀疏激活降低计算成本。</li> <li>DeepSeek MoE设计: <ul> <li><strong>无辅助损失负载均</strong>:通过动态调整专家偏置项实现负载均衡,避免传统MoE中辅助损失对性能的干扰,同时引入序列级辅助损失缓解极端不平衡。</li> <li><strong>细粒度专家分工</strong>:包含256个路由专家和1个共享专家,每个token最多路由至4个节点,减少通信开销。</li> </ul> </li></ul><p>2. 多头潜在注意力(MLA)</p><ul> <li>高效长文本处理:采用低秩压缩技术减少键值缓存(KV cache)内存占用,支持128K上下文窗口,在“针在干草堆”(NIAH)测试中表现优异。</li></ul><p>3. 多标记预测(MTP)</p><ul> <li>训练与推理优化:同时预测未来两个token,提升数据利用效率,并通过推测解码(speculative decoding)实现1.8倍推理加速,生成速度达60 TPS。</li></ul><p><u><strong>二、训练方法与效率</strong></u></p><p>1. 三阶段训练流程</p><ul> <li>预训练:使用14.8万亿token的多语言数据(侧重数学与编程),采用文档打包(document packing)和填空策略(Fill-in-Middle)增强上下文理解,总耗时278.8万H800 GPU小时(约557.6万美元)。</li> <li>长上下文扩展:基于YaRN方法分两阶段将上下文窗口从4K扩展至128K,保持低学习率(7.3×10⁻⁶)以确保稳定性。</li> <li>后训练: <ul> <li><strong>监督微调(SFT)</strong>:结合内部生成数据(DeepSeek-R1)和人工验证数据,覆盖150万实例,优化答案简洁性。</li> <li><strong>强化学习(RL)</strong>:采用GRPO算法(Group Relative Policy Optimization),通过规则型与模型型奖励模型结合,提升数学与编程任务的准确率。</li> </ul> </li></ul><p>2. 硬件与框架协同优化</p><ul> <li>分布式训练:使用2048块H800 GPU,结合16路流水线并行、64路专家并行及ZeRO-1数据并行,采用DualPipe算法减少流水线气泡,通信效率提升30%。</li> <li>FP8混合精度训练:通过细粒度量化和高精度累加技术,降低显存占用和计算成本,支持FP8推理与NVIDIA/AMD GPU、华为昇腾NPU适配。</li></ul><p><u><strong>三、性能表现与评测对比</strong></u></p><p>1. 综合能力</p><ul> <li>推理与知识任务:在AIME 2024数学竞赛中准确率领先所有开源/闭源模型,MMLU-Pro知识评测达90.8%,接近Claude-3.5-Sonnet。</li> <li>编程与工程:Codeforces编程任务Elo评分2029(超越96%人类),SWE-Bench工程代码生成与Claude-3.5-Sonnet-1022持平。</li> <li>中文处理:C-Eval中文教育类评测超越Qwen2.5-72B,长文本处理(如LongBench v2)表现突出。</li></ul><p>2. 效率优势</p><ul> <li>生成速度:通过算法优化实现60 TPS吐字速度(较前代提升3倍),响应延迟显著降低。</li> <li>训练成本:总成本约558万美元,仅为GPT-4的1/10,性价比优势显著。不包括科研成本。</li></ul><p><u><strong>四、开源生态与应用</strong></u></p><ul> <li>模型与工具开源:发布FP8原生权重及代码库,支持本地部署与SGLang、LMDeploy等推理框架集成。</li> <li>微调工具链:Colossal-AI推出低成本SFT/RL工具箱,支持LoRA微调(硬件需求降低10倍),适配昇腾NPU与英伟达GPU。</li> <li>社区影响:GitHub星标近4万,推动教育、科研及企业级AI应用,如代码生成、长文本分析等。</li></ul><p><u><strong>五、挑战与未来方向</strong></u></p><ul> <li>现存问题:部分用户反馈跨上下文意图识别不足,中英混杂输出需优化,工程类代码生成仍有提升空间。</li> <li>技术演进:计划探索多模态扩展、低资源场景适配及RAG(检索增强生成)深度集成,进一步提升实用性与安全性。</li></ul>
Pod Engine is not affiliated with, endorsed by, or officially connected with any of the podcasts displayed on this platform. We operate independently as a podcast discovery and analytics service.
All podcast artwork, thumbnails, and content displayed on this page are the property of their respective owners and are protected by applicable copyright laws. This includes, but is not limited to, podcast cover art, episode artwork, show descriptions, episode titles, transcripts, audio snippets, and any other content originating from the podcast creators or their licensors.
We display this content under fair use principles and/or implied license for the purpose of podcast discovery, information, and commentary. We make no claim of ownership over any podcast content, artwork, or related materials shown on this platform. All trademarks, service marks, and trade names are the property of their respective owners.
While we strive to ensure all content usage is properly authorized, if you are a rights holder and believe your content is being used inappropriately or without proper authorization, please contact us immediately at [email protected] for prompt review and appropriate action, which may include content removal or proper attribution.
By accessing and using this platform, you acknowledge and agree to respect all applicable copyright laws and intellectual property rights of content owners. Any unauthorized reproduction, distribution, or commercial use of the content displayed on this platform is strictly prohibited.