李沐讲座：大语言模型的实践经验和未来预测

本文简介

本博客记录了李沐关于语言模型与职业生涯分享的精彩讲座，涵盖了大语言模型的核心要素、工程实践中的挑战，以及演讲者个人职业生涯中的心得体会。

李沐简介

李沐（Mu Li）是一位在人工智能与深度学习领域具有广泛影响力的计算机科学家。他拥有丰富的学术背景和产业经验，曾在百度和Amazon等知名科技公司工作，并有两次成功的创业经历。李沐以其在深度学习、分布式系统以及大规模机器学习方面的杰出贡献而闻名。他不仅在学术界有着深厚的研究积累，还致力于将前沿技术应用于实际场景，推动了许多关键技术的发展。

作为一位活跃的教育工作者和技术布道者，李沐在多个顶尖大学教授人工智能课程，并通过在线教育平台广泛传播人工智能与深度学习的知识。他的讲座和课程内容深受学生和工程师的欢迎，启发了众多年轻学者和开发者。

李沐在职业生涯中一直秉持着创新与实践并重的理念，积极探索和应用最新的技术，以应对全球范围内的技术挑战和商业机会。他的工作不仅推动了人工智能领域的进步，也对未来技术的发展方向产生了深远的影响。

视频地址

讲座视频 url
- https://www.bilibili.com/video/BV1dHWkewEWz/?vd_source=ab3bc32ecf95e626ff9c8dab4c9ec276
- https://www.youtube.com/watch?v=ziHUcDh0DwM

语言模型

语言模型最重要的三个模块：算法，数据，算力
水冷用来散热很重要。一个机架里面能放 72 张卡。带宽很重要。内存（应该就是显卡显存）目前能做到 192GB，未来大概率也超过不了 200G，因为工艺问题
一个芯片 1kW，很耗电。说是建个发电厂的价格可能比付电费低...
模型会变得越来越大、便宜、快
语言模型的训练数据量大概就是目前的 10-50T 量级了。模型大小大概率也是 100-500B
video 生成比较贵，数据很重要，数据处理的成本可能比模型训练还要高
自动驾驶为什么能做好，认为是封闭路况里面开车相对来说比较简单，然后每个车上有大量的 sensor，能够采集大量的数据用于训练
目前能做文科的简单任务。理科只能做部分简单任务。蓝领工作目前做不了
只要有足够数据，就能被自动化
预训练是工程问题，后训练是算法问题，也很重要
垂类模型通用能力也不能差
自建机房更便宜。GPU 价格成本没区别，主要是存储会便宜很多
大语言模型没什么特别的，只是比ML model 大了 100 倍，工程和算法在模型大了之后有需要优化的地方

个人职业生涯分享

学习过的学校很多，工作过的大公司有百度和 Amazon，两次创业经历。

工作、读博、创业的差别

基本目标、要做的事、驱动力要求这三者是有区别的
打工人的好处和劣势，压力整体是最小的。有相对稳定的收入和空余时间
PHD，写作演讲的能力很重要，读博能锻炼。很多公司要 PHD，也不是一定要 PHD 才行，只是市场上 PHD 量大管饱，所以就招 PHD。和导师不适应会很麻烦
创业有当海盗的乐趣，看哪里有船就去抢一把，抢到就爽一把，没抢到就死掉了。
从动机触发进行选择
持续提升自我的方法。多总结。
总结。认为会有很多新技术不断被发明出来，即便没有新技术，就是本代的 transformer 技术就已经能在未来几年给世界带来大的变革了。但也是最坏的时代，因为电梯上很多人，要更努力才行。