【研究】AI大模型需要什么样的硬件？

关注AI大模型 x 硬件的两条思路

从22年11月OpenAI推出ChatGPT至今，我们看到Chatbot应用的能力不断增强，从最初的文字问答，迅速向具有自主记忆、推理、规划和执行的全自动能力的AI Agent发展。我们认为端侧智能是大模型发展的重要分支。建议投资人沿着：1）大模型如何赋能终端，2）终端如何解决大模型普及难点两条思路，寻找硬件的落地机会。我们看好1）Apple Intelligence推动苹果用户换机，2）交互能力提升推动轻量级AR开始普及，3）隐私保护需求推动办公用 PC AI化等三大机会。

具备记忆、推理、规划、执行能力的AI Agent可能是大模型的最终形态

大模型的应用能力最初功能仅限于文字问答，此后逐渐引入图像理解、文生图功能，并通过GPT Store拓展功能，形成了AI Agent雏形，近期GPT-4o则实现了具备情感的互动。用户数方面，根据Similarweb，24年5月ChatGPT的PC+移动端独立访客数达到3亿，在全球所有网站中排名第22。我们认为大模型的演进方向是智能化和自动化程度逐渐提升，最终形态是AI Agent，具有自主记忆、推理、规划和执行的全自动能力。

观点#1：Apple Intelligence推动苹果用户换机，利好产业链业绩增长

6/11, 苹果WWDC 2024大会推出由苹果自研的端侧大模型、云端大模型、以及OpenAI的ChatGPT组成的全新智能系统Apple Intelligence。从功能上来讲，和OpenAI，Google的现有功能差异不大，但由于此类功能只在iPhone 15 pro/max及以后系列搭载，有望推动苹果用户换机。根据IDC数字，苹果2023年销量2.34亿台，华泰预测苹果2024年销量下降8.2%到2.15亿台。根据BankMyCell数字，2024年苹果手机活跃用户14.6亿人，对应目前换机周期6.23年，如果Apple Intelligence能够缩短换机周期3个月，可以带动约1000万台新机销售。

观点#2：交互能力提升推动轻量AR普及

AR/VR一直被认为有望替代手机成为下一代移动终端。但由于缺少触摸屏，人机交互困难一直是困扰AR/VR发展的一大难点。从最近谷歌推出的Project Astra以及Meta的雷朋眼镜中我们看到，大模型所具备的图像理解、语音交互，以及根据语音交互结果进行的执行能力有望大幅度提高AR眼镜的交互能力。目前具身智能的发展仍然处于非常早期阶段，但是大模型所具备的以上能力，也有望大幅度提高机器人对环境的理解能力，以及根据理解结果控制关节等的执行能力。

观点#3：隐私保护需求推动办公用 PC AI化

23年3月，微软推出面向Office的Microsoft 365 Copilot以来，以办公助手为切入点，重塑包括Word、Excel、 Powerpoint等通用办公软件，以及Dynamics套件等专业软件在内的生产力工具矩阵，向数据协同、功能联动的方向发展。如何保护自身私域数据的安全是企业导入微软Copilot的主要痛点之一。24年5月，微软推出Copilot+PC，通过在终端侧部署轻量级的大模型，在保护隐私的前提下，能够实现会议纪要、文档总结、PPT智能创作、文生图等企业的基本办公需求，是大模型时代生产力工具的主要支点。我们认为2025年AI PC渗透率有望大幅提升。

大模型能力提升不断解锁新的应用场景

过去一年，大模型能力的发展速度超出我们预期。

以衡量LLM的常用的多语言理解均值评测标准（MMLU）为例，2021年底全球最先进大模型的MMLU 5-shot得分刚达到60%，2022年底超过70%，而2023年底已提升至超过85%。在语言能力之外，AI大模型的多模态能力也快速提升。2023年初，主流闭源大模型通常为纯文本的LLM。2023年至今，闭源模型的多模态能力具有大幅度提升，目前主流闭源大模型通常具备图像理解、图像生成能力。部分最前沿的闭源大模型，例如GPT-4o、谷歌Gemini，支持的模态更加多元，能够理解文本、图像、音频、视频（帧），并生成文本、图像、音频。2022年9月，红杉资本预计还需要近十年的时间，大模型才能实现实习生级别的代码生成、好莱坞质量的视频和区别于机械声的人类质量语音，但是实际进展远超当时预期，Sora已经能够生成60s的高质量视频，GPT-4o和谷歌Gemini都已经能够实现具备感情的实时人机语音交互。

我们看到，随着大模型能力的不断增强，AI的作用不断深化，生成式AI新的应用不断被解锁。

通过对AI在搜索、电商零售、办公、金融法律、影视游戏，医药、教育、汽车等行业应用前景的分析，我们认为，AI应用的落地节奏或与行业数字化程度成正比，我们看到AI大模型在互联网（搜索+广告营销）、办公、金融等领域率先迎来"iPhone时刻"。其中最值得关注的应用包括：1）文本生成在电商、金融、医疗等行业替代传统客服；2）文本和图像生成在办公、广告营销、金融、影视游戏等领域成为下一代生产力工具；3）蛋白质生成能力拓宽人类探讨世界的范围，特别是在新药开发上的应用前景。

硬件是大模型的重要载体，什么是AI大模型时代的最佳硬件形态是投资人最关心的话题之一。我们认为随着大模型能力的不断提升，新的硬件形态会被不断解锁。建议投资人沿着：1）大模型如何赋能终端 ，2）终端如何解决大模型普及难点两条思路，寻找硬件的落地机会。

大模型如何赋能终端：交互能力提升（轻量级AR），代码执行（具身智能）。

AR/VR一直被认为有望替代手机成为下一代移动终端。但由于缺少触摸屏，人机交互困难一直是困扰AR/VR发展的一大难点。从最近OpenAI推出的GPT-4o、谷歌推出的Project Astra以及Meta的雷朋眼镜中我们看到，大模型所具备的图像理解、语音交互，以及根据语音交互结果进行的执行能力有望大幅度提高AR/VR产品的交互能力。另外，虽然目前具身智能的发展仍然处于非常早期阶段，但是大模型所具备的以上能力，也有望提高机器人对环境的理解能力，以及根据理解结果控制关节等的执行能力。

终端如何解决大模型痛点：隐私保护（AI PC）。

23年3月，微软推出面向Office的Microsoft 365 Copilot以来，以办公助手为切入点，重塑包括Word、Excel、Powerpoint等通用办公软件，以及Dynamics套件等专业软件在内的生产力工具矩阵，向数据协同、功能联动的方向发展。如何保护自身私域数据的安全是企业导入微软Copilot的主要痛点之一。24年5月，微软推出Copilot+PC，通过在终端侧部署轻量级的大模型，在保护隐私的前提下，能够实现会议纪要、文档总结、PPT智能创作、文生图等企业的基本办公需求，是大模型时代生产力工具的主要支点。我们认为2025年AI PC渗透率有望大幅提升。

终端如何解决大模型痛点：高频使用（AI手机）。

手机是人们日常生活最高的交互终端，具有普及率高、使用频率高，考虑终端算力、存力以及客户应用需求等因素，手机已经成为AI大模型在C端落地的重要设备。去年底至今，随着三星Galaxy S24、Google Pixel 8等重要产品上市，以及苹果WWDC推出Apple Intelligence，手机AI的功能逐渐清晰。目前语音助手、修图、写作助手等功能成为主流。苹果通过Siri，将AI当作手机不同App之间联系的工具，而不是像此前三星和谷歌的AI应用更侧重于让AI去完成单一特定任务。未来AI软件由谁付费或发展成手机品牌商、芯片厂商、软件厂商、消费者的四方博弈，但随着token成本的下降和苹果较大的优质用户基数，模型API成本或持续下降，并推动应用加速普及，AI手机渗透率有望持续提升，形成正向循环。