首页 > 科技快讯 > 课代表笔记：吴恩达和李沐对AI的见解

课代表笔记：吴恩达和李沐对AI的见解

晰数塔互联网快讯
2024-08-29 15:43

一、李沐演讲：模型、产品部分

“8月23日，李沐回到了母校上海交大，做了一场关于 LLM 和个人生涯的分享，整个分享干货满满。”

1. 开场科普

李沐将模型训练比作“炼丹”的过程，巧妙地将其分为三大要素：数据、算力和算法。数据如同炼丹的材料，搜集起来困难但至关重要；算力类比为炼丹的火力和设备；而算法则是不断改进的炼丹配方。

他指出，当前的语言模型与早期的深度学习模型有显著不同。现在的目标是创造一个具有“灵魂”的多功能模型，能够解决各种各样的问题，而不仅仅是针对单一任务。

展望未来，李沐认为硬件、数据和算法的发展将遵循一定规律，预计在未来几年会持续稳步进展，而非出现突破性跃进。

2. 硬件趋势

新型 GPU 系统如英伟达的 GB200 能在单个机架位容纳多达 72张算力卡，大幅提升了空间利用率。

为应对高密度 GPU 带来的散热问题，水冷技术应运而生，虽然提高了算力密度和通讯效率，但也带来了漏水风险和更高的基建要求。

紧密排列 GPU 提高了整体通讯效率，类似多核芯片设计，尽管 GPU 和 CPU 间的 PCIe 通讯相对较慢。

最后，他指出，大规模语言模型对内存需求巨大，当前技术可达 192GB/GPU，但未来可能因占用过多芯片面积而成为瓶颈。

3. 内存与算力趋势

内存大小是模型规模的主要限制因素，尽管英伟达在市场领先，但在内存方面落后于 AMD 和 Google 的 TPU。

关于算力，李沐预测长期来看会越来越便宜，特别是在解决带宽和内存问题后。他提到降低浮点数精度可优化硬件，但高能耗成为新挑战。

关于英伟达的市场垄断，短期内可能导致算力价格上涨，但长期看来，竞争加剧和摩尔定律作用下算力会变得更便宜。

李沐预测语言模型参数主流会在 100B 到 500B 之间，每次预训练使用 10T 到 50T 的 token，因为数据质量和多样性已达到足够规模。

4. 多模态模型

在语音技术方面，新方法直接处理原始语音信号，提供更丰富的信息和更低的延迟。音乐生成技术虽然取得进展，但主要挑战在于版权问题，而非技术本身。

图像生成技术已达到接近真实的效果，但仍有提升空间。视频生成则仍处于早期阶段，面临高成本和技术难度。

李沐还强调了多模态模型的趋势，即整合文本、图片、视频和声音等不同类型的信息，通过文本指令控制其他模态的输出（跟6月Natrue的论文如出一辙）。

李沐认为当前语言模型已经达到了较高的水平，得分在80到85分之间，音频模型处于可接受的水平，得分在70到80分之间。然而，在视频生成方面，尤其是生成具有特定功能的视频，整体水平较低，约为50分。

5. 产品及交互

ChatGPT 的出现改变了用户习惯，从简单触控操作转向更复杂的长文本输入，未来可能延伸至长语音交互。

虽然目前还未出现新的 AI 杀手级应用，但李沐预测技术发展可能催生出革命性的应用形态。他强调 AI 应用的本质是辅助人类完成任务，为我们提供无限的人力资源。

尽管如此，李沐认为 AI 离真正变革世界还有一段距离。

6. 对AI应用的分类

在文科白领方面，AI 在个人助理、呼叫中心、文本处理和教育等领域表现出色，能完成 80% 到 90% 的工作，但复杂任务仍需改进。

对于工科白领，特别是程序员，AI 能简化代码检索和调整，但复杂编程仍需人工完成。

在蓝领领域，AI 在自动驾驶方面取得显著进展，但在执行如端盘子、运货等复杂物理任务时仍面临巨大挑战。预计 AI 在蓝领工作的初步应用至少需要 5 年时间。

7. 模型训练过程的挑战与困难

数据采集是自动化的关键，但这是个长期过程。李沐区分了预训练（工程问题）和后训练（技术问题）的不同，强调高质量、相关数据和算法改进的重要性。在创业方面，他建议通过微调大模型来提升性能。

算法创新面临巨大挑战，特别是在不同规模模型间。关于垂直模型，李沐认为它们仍需通用知识支持。模型评估极其复杂，需要全面、动态的方法。

他强调数据决定模型上限，算法决定下限，当前 AI 仍处于“填鸭式”学习阶段。最后，李沐提到算力成本主要归于硬件厂商，自建机房和租用 GPU 差异不大。

二、李沐演讲：创业、学习部分

1. 三个方向：读博、创业、打工

在学术研究方面，李沐强调了适应能力的重要性，包括适应不同的研究领域和导师风格。他指出，对研究的热爱是克服长期缺乏即时反馈挑战的关键。

创业被李沐比喻为“当海盗”，充满刺激和不确定性。它要求快速学习、适应市场，并承担风险。虽然创业提供了直接面对社会的机会，但也可能带来巨大压力，影响生活质量。

在大公司工作需要确保个人目标与公司一致，而非仅追求个人兴趣。创业公司面临生存压力，需要更高的驱动力。打工人虽有稳定收入和学习机会，但可能限制思维。

2. 对三种道路的选择逻辑

无论选择哪条路径，李沐强调强烈的内在动机——可能源于内心欲望或对失败的恐惧——是长期成功的关键。欲望和恐惧是人类的基本动力，如对名、利、权的追求。面对这些驱动力，关键在于直面并理解它们，而非逃避或放纵。他建议将这些欲望和恐惧转化为积极向上的动机，确保这种动机符合个人价值观。

在确定积极动机后，李沐提出了三种解决相关问题的途径：对于具有学术价值的问题，可以考虑攻读博士；有商业价值的问题可以尝试创业；至少有成长价值的问题可以从打工开始。

为持续提升自我，李沐分享了一个实用方法：从导师或上级的角度每周总结工作。他建议分析未达成目标的原因，如果是懒惰，要直面并解决，比如找学习伙伴相互监督；如果是能力不足，可以考虑转向擅长领域或增加学习时间。

3. 结尾与展望

李沐通过内部数据验证了一个重要观点：无论学历如何，技术变革将在未来几年对各个层面产生广泛影响。他强调，我们正处于一个机遇与挑战并存的时代。

在机遇方面，李沐指出技术变革将惠及广泛群体，包括在校学生（本科、硕士、博士）和刚入职场的新人。这些群体都将从未来几年的技术进步中受益。

与上一代相比，现今的人们需要付出更多努力才能享受到时代红利。尽管这些红利仍然存在，但获取它们变得更加困难。

三、吴恩达8月最新访谈

“8月中旬，吴恩达参与了一个访谈节目。在节目中，他对AI的发展现状和未来作出了深入分析，并讨论了AI技术在实际应用中的瓶颈和突破。”

1. 关于AI前景担忧的看法

吴恩达对 AI 的发展持乐观态度，认为过去关于 AI 遇到瓶颈的担忧都被证明是错误的。他强调生成式 AI 和大型语言模型（LLM）具有巨大潜力，尽管目前面临硬件供应和推理能力的瓶颈。吴恩达预计这些问题将在未来 1-2 年内得到解决，同时 AI 技术的投资回报率将吸引更多资金流入。

他特别看好 AI Agent 和 Agentic Workflow 技术的前景，认为随着硬件改进和推理能力提升，这些技术将显著提高 AI 应用的准确性。吴恩达也指出，训练和推理成本的下降将推动更多 AI 应用的发展。虽然长时间运行的 AI 系统可能面临错误累积的问题，但他相信这可以通过改进架构来克服。

2. 对于当下技术的看法

吴恩达深入探讨了 AI 技术的最新发展和未来方向，重点关注 Agentic Workflow、模型架构、推理速度和基础设施。他介绍了 Agentic Workflow 的优势，强调 AI 能够自主回顾和修复错误，提高系统稳定性。以斯坦福大学的演示为例，AI Agent 在网络搜索失败时自动切换到维基百科，展示了其适应性。

关于模型架构，吴恩达认为现有的 Transformer 模型已经表现良好，虽然新架构值得研究，但不是必需的。他强调提高快速推理和生成控制能力更为关键。

推理速度被视为当前 AI 应用的主要瓶颈。吴恩达指出，显著提高推理速度（如从 25 分钟缩短到 2 分钟）将极大改善用户体验，推动 AI 应用发展。

在讨论 AI 基础设施时，吴恩达认同增加训练投资可能提高模型效率的观点。他提到一些公司正在开发高效的 token 生成技术，并提出了训练和推理基础设施是否应分离的问题，暗示这可能需要新的架构支持。

3. 业内竞争与商业策略的看法

吴恩达指出 LLM 技术具有显著的成本优势，但仅依赖基础模型难以建立长期竞争壁垒。公司需要通过其他技术组件来增强竞争力。

关于研究公开性，吴恩达认为尽管出于安全考虑，许多公司不再公开分享方法，但人才和想法的流动使得长期保密变得困难。这种趋势可能带来短期优势，但长期影响有限。

开源技术，如 Meta 的 Llama 3，展示了强大的创新潜力。尽管存在安全风险，吴恩达认为开源带来的整体好处更大。Meta 开发 PyTorch 的案例说明了开源在商业战略中的重要性，有助于减少对竞争对手平台的依赖。

在 AI 应用竞争方面，吴恩达提到了 OpenAI 的积极推动作用。虽然并非每个项目都成功，但少数成功项目（如 GPT-4）带来了巨大影响，推动了整个行业的技术进步。

吴恩达还和其他专家深入探讨了 AI 模型的性能、评估标准和实际应用进展。一项小研究发现，在编码问题上，GPT-3.5 竟然优于使用 Agentic Workflow 的 GPT-4，这突显了 AI 发展的复杂性。

吴恩达强调 AI 和人类智能各有独特价值，不应简单比较。他倾向关注 AI 的渐进式发展，而非追求达到某个具体标准。Brett Winton 则认为基准测试对推动 AI 商业化至关重要。

4. 关于企业内部变革的看法

吴恩达指出，尽管技术进步迅速，企业的文化变革和内部管理变革往往出人意料地缓慢，甚至简单的物质配置改变也可能需要数年时间。这种组织惰性与技术发展的快速步伐形成鲜明对比。