by 出埃及记Exodus
在流动性泛滥的年代,我们见证了在狂热资本催熟下层出不穷的改变世界的叙事;褪去的一场场潮水所洗涤和留下的,是我们皈依真正的技术进步和底层创新的信仰。 《出埃及记》希望探讨的不仅仅是技术变革所启发的有关未来的天马行空,更希望秉持科学研究精神和工程师思维,深入分析技术发展的脉络,基于技术的可行性边界来讨论产品创新。 我们会请人工智能等计算机科学或其他交叉科学领域的学者、PhD学生和创业者来分享他们对于事件的认知、所在领域的研究成果、以及他们所看到的未来。我们希望我们的讨论将更好地帮助我们摒弃充斥着情绪和立场先行于事实的噪音,从本源去理解科技的发展进程与实际应用空间,揭示AGI到底是怎样的图景、以及我们该如何去影响未来。 我们不追求速度和追赶热点,但将永远以科技和真理为引,去找寻属于我们的美好、宽阔、流奶与蜜之地。 欢迎订阅我们的节目,我们的音频版也会同步在Apple Podcast和Spotify上线。如果您有任何问题、感兴趣的内容、或者想参与我们的播客,欢迎关注公众号“出埃及记Exodus”或联系邮箱[email protected]
Language
🇨🇳
Publishing Since
3/26/2024
Email Addresses
1 available
Phone Numbers
0 available
October 7, 2024
<p>【关于本期】</p><p>近期,Meta 发布的 Movie Gen 文生视频生成模型,依托近万块 Nvidia H100 显卡的强大算力在云端完成训练,打造了AI生成的沉浸式场景体验。而苹果则采取了另一种路径,在利用云服务运行Apple Intelligence系统的同时,也隐私化地利用端侧 Apple 芯片驱动的设备学习用户专属的人工智能模型。这种云端与设备端的技术选择差异,凸显了当前大模型训练和部署方式的多样性——究竟是依赖云端的超大算力,还是通过设备端的优化与隐私保护来实现高效推理?</p><p>事实上,这背后反映的是科研圈和工业界广泛关注的模型训练与推理效率的优化问题。在大模型规模迅速扩张的时代,系统的效率与稳定性优化不仅是一个巨大的财务考量(例如,Anthropic 目前将近一半的营收用于购买 AWS 计算服务),更直接影响模型迭代的速度和周期。在本期播客中,我们很开心邀请到了 UC Berkeley 的李卓翰博士和 Meta FAIR 的赵嘉玮博士,共同探讨 LLM 训练与服务中的核心算法、优化策略、以及实际应用中的云计算与端计算之争,并深入分析这些选择如何影响部署成本与未来发展趋势。</p><p>【嘉宾介绍】</p><p>李卓翰:UC Berkeley PhD,导师Ion Stoica。他的研究方向是机器学习系统。他的工作包括Alpa,AlpaServe,Vicuna,以及 vLLM(PagedAttention)。他是开源项目vLLM(https://github.com/vllm-project/vllm)的创始人以及维护者之一。vLLM是目前最流行的开源大语言模型推理及部署引擎,并且在工业界被广泛部署。</p><p>赵嘉玮 (X: @jiawzhao):Meta FAIR 高级研究科学家。他的研究方向主要聚焦于与硬件效率结合的模型优化训练方法,通过理解神经网络的训练原理和硬件上限制的相互关系,来设计更高效的训练范式。他近期的研究重点是内存高效的大模型预训练和微调方法,包括提出GaLore, InRank等一系列新型训练算法。其中GaLore已经融入主流深度学习平台例如PyTorch和HuggingFace中,并且项目拥有超过10万次的下载量。博士毕业于加州理工学院。</p><p>【降落伞】</p><p>02:55 嘉宾介绍</p><p><strong>破解大模型的系统级训练(Training)难题</strong></p><p>06:37 大模型的训练算法(SGD, Adam)</p><p>08:36 大模型训练的设备和内存需求</p><p>11:08 大模型训练对算法的要求</p><p>12:49 大模型训练的数据量和自监督学习</p><p>15:22 系统设计在大模型商业化中的重要性</p><p>19:24 修改机器学习算法的收益与风险</p><p>22:20 大模型预训练(pretrain & continual pretrain)与微调(finetune)</p><p>26:59 大模型训练的无损优化</p><p>29:45 大模型训练的有损优化(GaLore)</p><p><strong>破解大模型的系统级服务(Serving)难题</strong></p><p>36:14 如何降低模型推理的部署成本</p><p>41:42 vLLM项目的诞生</p><p>44:15 vLLM开源之后的维护</p><p>46:18 vLLM在单个模型上对用户请求的优化</p><p>50:23 跨模型请求的优化的推理框架</p><p>57:40 对vLLM未来开源贡献者的设想</p><p>1:01:34 云端(Cloud) LLM和终端(Edge) LLM的差异</p><p><strong>大模型训练与推理系统优化的商业化问题</strong></p><p>1:05:28 算力友好的PEFT和MEFT的落地</p><p>1:08:04 去中心化(decentralized)的大语言模型背后的商业思维和隐私问题</p><p>1:13:27 服务于大模型算力需求的明星公司</p><p>1:16:08 未来展望: AGI的愿景是寻求突破</p><p>【制作团队】</p><p>主理人:</p><ul> <li>刘杰尼:社科传媒本计算机研,Ex高盛TMT投行吗喽,接触过各种行业和国内外项目,混过大厂小厂和创业公司,并有幸(有可能是不幸)经历中国上一个TMT时代的完整兴衰,试图更好地活在科技与人文的交叉点。</li> <li>徐胖虎:电子工程本,计算机硕博,现加州大学某海景分校论文力工,Ex-Meta机器学习实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算,试图理解生物人脑和暴力美学的大模型间的共通之处。</li></ul><p>制作:</p><ul> <li>黄芊雅:复旦大学新闻学院</li> <li>邱鑫:上海交大安泰经管学院</li> <li>王翌婷:复旦大学计算机学院</li></ul><p>【音乐版权】</p><ul> <li>Time by Pold <a href="https://soundcloud.com/pold-music">soundcloud.com</a>|Free Download / Stream: <a href="https://tinyurl.com/5dztkmyj">tinyurl.com</a>|Promoted by Audio Library <a href="https://tinyurl.com/54sbb2zz">tinyurl.com</a></li> <li>Look At The Clouds by Declan DP|Free Download / Stream: <a href="https://bit.ly/49UWP46">bit.ly</a>|Promoted by Audio Library <a href="https://bit.ly/48LtPdZ">bit.ly</a></li> <li>vLLM: https://docs.vllm.ai/en/latest/</li> <li>GaLore: https://arxiv.org/abs/2403.03507</li></ul>
August 8, 2024
<p>【关于本期】</p><p>OpenAI终于在7月底兑现承诺,上线了GPT-4o高级语音模式的灰度测试,目前一小部分ChatGPT Plus用户已经拿到了尝鲜入场券。OpenAI表示,高级语音模式提供了更加自然、实时对话,可以随意打断,甚至它还可以感知、回应你的情绪。预计在今年秋季,所有ChatGPTPlus用户,都能用上这个功能。</p><p>ChatGPT的语音对话功能去年9月首次推出,今年5月在GPT4o发布会直播中推出了高级语音模式的demo。在demo演示中,GPT4o可以识别出OpenAI总裁Brockman所穿的衣服、身处的环境,甚至通过他周围的灯光布置推断出他可能正在进行视频直播。更令人惊讶的是,GPT4o在与Brockman对话时,可以识别出Brockman的情绪和语气,而其回复相比GPT3.5和GPT4,也更加活泼和生动。</p><p>但不管是因为C端产品对于安全性与稳定性的高要求,还是之前版本采用与寡姐斯嘉丽约翰逊高度相似声线诱发的风波,这个饼也终于在反复跳票后在7月底被落实。而我们恰好在2个月前跟做audio generation的两位博士生朋友交流对当时OpenAI发布会的GPT4o的看法。他们分别是MyShell联合创始人,麻省理工在读博士生秦增益,和卡耐基梅隆大学LTI WAVLab博士生史嘉彤。我们从创业公司和学界研究者的视角展开聊聊Audio/SpeechGeneration,其中的许多很有意思的观点在2个月后的今天看来,的确得到了验证。</p><p>【嘉宾介绍】</p><p>秦增益:MIT博士生,本科毕业于清华大学。研究范围包括音频生成、大语言模型和计算机视觉。他的语音生成模型OpenVoice在Github上获得27k stars,并登顶Github排行榜。他联合创立的生成式AI应用平台MyShell已有超过200万注册用户,并有超过10万个应用被创建</p><p>史嘉彤:卡内基梅隆大学LTIWAVLab博士生,师从ShinjiWatanabe教授。本硕分别毕业于中国人民大学和约翰霍普金斯大学计算机专业。研究方向主要在语音和音乐处理,近期主要关注于音频表征学习及其应用;他是语音处理框架ESPnet的主要贡献者,以及近年语音相关基准/比赛 SUPERB、ML-SUPERB、SVCC、IWSLT、DiscreteSpeech、SVDD、Dynamic SUPERB 的组织者和发起人。曾获卡内基梅隆大学校长奖学金,SLT2022以及ASRU2023最佳论文提名。曾多次在腾讯 AI Lab、Meta AI、IBM AI Research进行研究实习。</p><p>【降落伞】</p><p>02:28 自我介绍</p><p>【GPT4o,新世界的大门】</p><p>03:24 怎么看待GPT4o的发布?</p><p>05:23 怎么衡量不同任务中语音系统的能力?是否需要新的评价标准?</p><p>12:29 GPT4o在demo中展现的能力</p><p>16:40 为什么GPT4o尚未完全开放它的各项能力?</p><p>19:53 怎么看待GPT4o的免费版本?</p><p>【如何实现GPT4o的相关功能】</p><p>23:16 GPT4o和其他功能性AI的本质区别</p><p>27:02 serving的改善和旧模型的迭代</p><p>28:48 怎么实现GPT4o的实时性和低延迟?</p><p>45:39 端到端的speech generation</p><p>49:24 个人定制AI agents助手的前景</p><p>58:07 语音合成能不能“超越”真实的speech?</p><p>【GPT4o的未完待续】</p><p>1:03:27 GPT4o的数据处理过程与提升需求</p><p>1:11:03 一段语音中的哪些信息和语音处理有关?</p><p>1:16:05 用语音检测核酸?</p><p>1:18:51 GPT4o可能与其他服务商或API合作吗?</p><p>1:22:00 未来展望:超级智能的曙光</p><p>【制作团队】</p><p>主理人:</p><ul> <li>刘杰尼:社科传媒本计算机研,Ex高盛TMT投行吗喽,接触过各种行业和国内外项目,混过大厂小厂和创业公司,并有幸(有可能是不幸)经历中国上一个TMT时代的完整兴衰,试图更好地活在科技与人文的交叉点。</li> <li>徐胖虎:电子工程本,计算机硕博,现加州大学某海景分校论文力工,incoming Meta 机器学习实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算,试图理解生物人脑和暴力美学的大模型间的共通之处。</li></ul><p>制作:</p><ul> <li>黄芊雅:复旦大学新闻学院</li> <li>邱鑫:上海交大安泰经管学院</li> <li>王翌婷:复旦大学计算机学院</li></ul><p>【音乐版权】</p><ul> <li>Time by Pold <a href="https://soundcloud.com/pold-music">soundcloud.com</a>|Free Download / Stream: <a href="https://tinyurl.com/5dztkmyj">tinyurl.com</a>|Promoted by Audio Library <a href="https://tinyurl.com/54sbb2zz">tinyurl.com</a></li> <li>Look At The Clouds by Declan DP|Free Download / Stream: <a href="https://bit.ly/49UWP46">bit.ly</a>|Promoted by Audio Library <a href="https://bit.ly/48LtPdZ">bit.ly</a></li></ul>
July 2, 2024
<p>【关于播客】</p><p>欢迎大家一同加入出埃及记的旅程!关注底层逻辑,剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目,我们会邀请全球顶尖院校的博士生或初创公司的创始人,一起聊聊人工智能等计算机科学或其他交叉领域的最新动态,分享他们的研究工作和相关洞察。</p><p>欢迎大家订阅收听,和关注我们的同名微信公众号,追踪最新内容。;p</p><p>【关于本期】</p><p>今年5月,Ilya为代表的Open AI超级对齐团队大面积离职;6月19日,在离开Open AI一个月后,Ilya拉上了Y Combinator合伙人和前open AI技术专家成立了SSI(safe super intelligence),旨在创建安全而强大的人工智能系统。AI技术与产品发展狂奔的另一面,是越来越多的有关人工智能是否会给人类社会带来风险和利益侵害的忧虑。</p><p>除了业界许多产品项和工程项的人大多持有有效加速的观点外,学界的观点像在打擂台一样构成了媒介议程。图灵奖AI三巨头之二的Bengio、Hinton以及我们熟知的姚期智等顶级科学家联名在Science刊登文章,警示无节制发展AI的风险;而图灵AI三巨头的另一位Yann LeCun、斯坦福的吴恩达教授以及李飞飞和John Etchemendy等学者则对人类控制AI的能力表示乐观。</p><p>本期我们很荣幸地请到Google DeepMind团队的刘睿博博士,和UC Berkeley PHD毕业的朱邦华博士,来跟我们从业界和学界的视角展开聊聊AI安全与AI对齐。本期播客将为大家揭露GPT4o不为人知的内幕,并希望从专业视角带来“超级对齐”的深度解读。</p><p>【嘉宾介绍】</p><p>刘睿博:Google DeepMind高级研究科学家。参与开发了Google多模态大语言模型Gemini 1.0/1.5和轻量级生成式AI开放模型Gemma。目前研究方向聚焦于人工智能对齐,曾获AAAI 2021年杰出论文奖。博士毕业于达特茅斯学院。</p><p>朱邦华:生成式AI网络安全初创公司Nexusflow联合创始人,即将作为助理教授入职华盛顿大学。参与开发了Starling-7B、NexusRaven-13B、Chatbot Arena以及Arena Hard Auto pipeline。研究方向包括基础模型、AI交互和强化学习,博士毕业于UC Berkeley。</p><p>【开降落伞】</p><p><strong>概念科普</strong></p><p>04:53 AI安全性的意见光谱</p><p>09:47 AI对齐(alignment)与AI安全(security)的关系</p><p>14:26 什么是“超级对齐”(super-alignment)?</p><p><strong>AI alignment的发展预测</strong></p><p>19:11 AI对齐的常见问题和发展路径</p><p>24:02 为什么要利用合成数据(Synthetic data)训练模型?</p><p>30:20 Chatbot Arena中,GPT会更偏好利用GPT合成数据训练出的模型吗?</p><p>31:50 学界与业界的AI alignment研究的区别</p><p>39:06 未来3-5年AI监管在研究和政策层面的预测</p><p>42:15 近期有哪些有趣的AI alignment work?</p><p>48:03 如何对人类的特征进行定量评估? 什么是好的评估(evaluation)?</p><p>52:28 GPT4-o后,对大语言模型有什么新期待?</p><p><strong>安全性和评估方法</strong></p><p>58:21 如何对不同大模型的安全性和preference进行评估?</p><p>61:23 从弱到强的泛化意味着什么以及可解释性</p><p>64:42 如何看待collective intelligence以及“用AI监督AI”?</p><p>69:33 如何看待大语言模型的公平性与偏见问题?</p><p>72:41 大语言模型alignment的主要方法与发展趋势</p><p>78:24 人类或机器人的行为与价值观如何被评估?如何获得高质量人类反馈数据?</p><p>85:12 NLP系统当中的human factors</p><p>92:29 Gemini和Gemma等LLM在对齐和安全上特别的主张或成果</p><p><strong>展望一下</strong></p><p>97:44 怎样看待AGI?未来的研究方向/工作聚焦点会有变化和调整吗?</p><p>【制作团队】</p><p>主播:</p><p>刘杰尼:社科传媒本计算机研,Ex高盛TMT投行吗喽,接触过各种行业和国内外项目,混过大厂小厂和创业公司,并有幸(有可能是不幸)经历中国上一个TMT时代的完整兴衰,试图更好地活在科技与人文的交叉点。</p><p>徐胖虎:电子工程本,计算机硕博,现加州大学某海景分校论文力工,Meta机器学习部门实习生。研究经历覆盖LLMs、类脑神经网络和软硬件效率计算,试图理解生物人脑和暴力美学的大模型之间的共通之处。</p><p>制作人:</p><p>黄芊雅:复旦大学新闻学院在读</p><p>邱鑫:上海交通大学安泰经管学院在读</p><p>王翌婷:复旦大学计算机学院在读</p><p>【参考文章】</p><p>OpenAI:<a href="https://openai.com/index/weak-to-strong-generalization/"> openai.com</a></p><p>OpenAI:<a href="https://arxiv.org/abs/2404.13208"> The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions</a></p><p>Anthropic:<a href="https://www.anthropic.com/research/many-shot-jailbreaking"> www.anthropic.com</a></p><p>【音乐版权】</p><ul> <li>Time by Pold <a href="https://soundcloud.com/pold-music">soundcloud.com</a>|Free Download / Stream: <a href="https://tinyurl.com/5dztkmyj">tinyurl.com</a>|Promoted by Audio Library <a href="https://tinyurl.com/54sbb2zz">tinyurl.com</a></li> <li>Look At The Clouds by Declan DP|Free Download / Stream: <a href="https://bit.ly/49UWP46">bit.ly</a>|Promoted by Audio Library <a href="https://bit.ly/48LtPdZ">bit.ly</a></li></ul>
Pod Engine is not affiliated with, endorsed by, or officially connected with any of the podcasts displayed on this platform. We operate independently as a podcast discovery and analytics service.
All podcast artwork, thumbnails, and content displayed on this page are the property of their respective owners and are protected by applicable copyright laws. This includes, but is not limited to, podcast cover art, episode artwork, show descriptions, episode titles, transcripts, audio snippets, and any other content originating from the podcast creators or their licensors.
We display this content under fair use principles and/or implied license for the purpose of podcast discovery, information, and commentary. We make no claim of ownership over any podcast content, artwork, or related materials shown on this platform. All trademarks, service marks, and trade names are the property of their respective owners.
While we strive to ensure all content usage is properly authorized, if you are a rights holder and believe your content is being used inappropriately or without proper authorization, please contact us immediately at [email protected] for prompt review and appropriate action, which may include content removal or proper attribution.
By accessing and using this platform, you acknowledge and agree to respect all applicable copyright laws and intellectual property rights of content owners. Any unauthorized reproduction, distribution, or commercial use of the content displayed on this platform is strictly prohibited.