硅纪元视角 | 阿里云GPU云服务升级：AI大模型推理性能翻倍

在数字化浪潮的推动下，人工智能（AI）正成为塑造未来的关键力量。硅纪元视角栏目紧跟AI科技的最新发展，捕捉行业动态；提供深入的新闻解读，助您洞悉技术背后的逻辑；汇聚行业专家的见解，分享独到的视角和思考；精选对您有价值的信息，帮助您在AI时代中把握机遇。

1 分钟速览新闻

阿里云GPU云服务升级：AI大模型推理性能翻倍
商汤科技引领车载AI新潮流：80亿参数多模态大模型车端部署
贾扬清团队Elmo插件：AI助手的Chrome新突破！
Proton Scribe：AI 助力电子邮件撰写，隐私保护新升级！
ElevenLabs Turbo v2.5 AI模型：普通话响应速度提升3倍

全球AI新闻

一、阿里云GPU云服务升级：AI大模型推理性能翻倍

资讯概要

阿里云于7月19日宣布其GPU云服务全面升级，包括推出全新优化的GPU套件和多GPU推理服务，性能提升最高达100%。此次升级特别针对AI大模型应用，通过优化底层AI通信加速库DeepNCCL，显著提升了Token输出吞吐量和降低了首Token时延。同时，ACK云原生AI套件的推出，为企业提供了自动化编排和GPU高效管理调度的能力，进一步增强了AI应用的运维效率。海艺AI作为先行者，在使用阿里云服务后，平均推理耗时大幅降低，整体性能提升显著。

硅纪元视角

阿里云GPU云服务的升级，不仅为AI大模型提供了更强大的计算支持，也通过ACK云原生AI套件进一步简化了模型部署和扩展过程，这对于需要处理大规模数据和复杂计算任务的企业来说，是一个巨大的助力。在AI视角下，这一升级意味着可以更高效地处理图像、语音、自然语言处理等任务，尤其是在需要实时或近实时反馈的应用场景中，如自动驾驶、智能监控、在线客服等。此外，通过优化训练数据读取性能和降低服务冷启动时延，可以预见在AI训练和推理过程中，模型的迭代速度和响应速度将得到显著提升，从而加速AI技术的商业化进程和创新应用的开发。随着AI技术的不断进步和应用场景的拓展，阿里云的这一升级无疑将为整个行业带来更多的可能性和机遇。

二、商汤科技引领车载AI新潮流：80亿参数多模态大模型车端部署

资讯概要

商汤科技在行业内首次实现了原生多模态大模型的车端部署，其车载端侧8B模型首包延迟在300毫秒以内，推理速度达到每秒40 Tokens。这一技术突破由商汤绝影团队完成，他们为多模态大模型打造了计算引擎"HyperPPL"，该引擎已扩展支持主流车载计算硬件，并且兼容多种主流操作系统。商汤绝影还特别针对车内多人场景进行了优化，确保在多人并发情况下，模型推理效率不受影响。此外，随着明年上千TOPS算力的车载芯片（如英伟达Thor）的问世，商汤预计其车端部署方案的首包延迟将大幅降低，推理速度进一步提高。

硅纪元视角

商汤科技的这一创新不仅为车载AI技术树立了新的标杆，也为智能驾驶和车联网领域带来了革命性的影响。HyperPPL计算引擎的多模态优化，使得车内娱乐、导航、安全监控等应用能够更加智能和高效。在自动驾驶领域，这一技术的应用将极大地提升车辆的感知和决策能力，为实现更高级别的自动驾驶提供了可能。同时，随着车载芯片算力的不断提升，未来车载AI系统将能够处理更加复杂的任务，如实时交通分析、个性化驾驶建议等，为用户提供更加安全、便捷的驾驶体验。商汤科技的这一技术突破，预示着智能汽车将成为未来交通生态系统中的重要一环，为城市交通管理和智能出行提供强有力的支持。

三、贾扬清团队Elmo插件：断网也能用！

资讯概要

贾扬清团队推出的Elmo插件，最新版本v0.3.2支持端侧模型，实现了"断网"也能使用的功能。这款Chrome插件利用本地模型Gemini nano，大小仅为12MB，为用户带来便捷的学术阅读和新闻浏览体验。Elmo插件能够生成总结、摘要，甚至对不理解的名词或段落提供进一步解释。它支持arXiv、PDF论文的精读，国内外新闻速览，以及付费网站内容的总结。此外，Elmo还具备视频时间轴分段总结功能，帮助用户快速定位视频内容。这款插件自今年4月发布以来，已经获得了3万+粉丝，并且得到了业界大佬的好评。Lepton AI作为其背后的团队，致力于简化AI模型的部署，提供了Python SDK和云计算平台，使得AI技术的普及和应用更加便捷。

硅纪元视角

Elmo插件的推出，标志着AI技术在浏览器插件领域的新进展。它不仅为用户提供了便捷的学术阅读和新闻浏览工具，更展示了端侧AI模型的潜力。在学术领域，Elmo能够帮助用户快速理解和吸收前沿研究，提高研究效率。在新闻领域，它能够快速提炼信息，帮助用户节省时间，提高信息获取的效率。此外，Elmo的视频时间轴分段总结功能，为视频内容的快速浏览提供了可能，这在教育、培训等场景中具有重要价值。Lepton AI的云原生AI平台，通过简化AI模型的部署，降低了AI技术的门槛，使得更多的开发者和企业能够利用AI技术，推动各行各业的智能化转型。随着AI技术的不断进步，我们有理由相信，Elmo插件和Lepton AI平台将在未来发挥更大的作用，推动AI技术的广泛应用和创新。

四、Proton Scribe：AI 助力电子邮件撰写，隐私保护新升级！

资讯概要

Proton近日推出了AI电子邮件写作助手Proton Scribe，这款软件内置于Proton Mail邮箱中，旨在节省邮件编写时间，提升企业团队生产力。Proton Scribe能够根据用户需求从零生成邮件初稿，同时提供校对、缩短或正式化现有文本草稿的功能。值得注意的是，Proton Scribe专为保护数据隐私而设计，既可以在专用服务器端运行，也可以在用户硬件上运行，后者确保用户数据不离开本地。目前，该助手仅支持英文，对硬件也有一定要求。

硅纪元视角

Proton Scribe的推出，标志着AI在电子邮件写作领域的进一步应用。在快节奏的工作环境中，能够快速生成内容丰富、格式正确的邮件，对于提高工作效率具有重要意义。此外，Proton Scribe的隐私保护设计，尤其是在用户硬件上运行的模式，为处理敏感数据和防范网络威胁提供了新的解决方案。

在具体场景中，企业高管、律师、医生等职业，经常需要处理涉及商业秘密、客户隐私等敏感信息的邮件。Proton Scribe的本地运行模式，能够有效保障这些信息的安全。同时，对于跨国公司，该助手能够帮助员工快速撰写符合不同文化背景和商务礼仪的邮件，提升沟通效率。

长远来看，随着AI技术的不断进步，Proton Scribe有望支持更多语言，并在更多硬件平台上运行，进一步扩大其应用范围。这不仅能够推动电子邮件写作的智能化，也可能改变人们对于数据隐私保护的认识和做法。

五、ElevenLabs Turbo v2.5 AI模型：普通话响应速度提升3倍

资讯概要

ElevenLabs最新推出的Turbo v2.5文本到语音AI模型，支持普通话等32种语言，覆盖全球近80%地区。新模型特别优化了印地语、法语、西班牙语和普通话等语言的响应速度，最高达3倍提升。Turbo v2.5模型结合了先进文本到语音技术和最新低延迟模型架构，实现快速、高质量语音合成，响应时间不超过400毫秒。ElevenLabs成立于2022年，专注于人工智能语音模型开发，计划年底将团队扩大至100人，并开发了AI Speech Classifier等工具。

硅纪元视角

Turbo v2.5模型的推出，标志着AI语音技术在多语言支持和响应速度上的显著进步。其低延迟特性使得实时语音交互成为可能，为智能助手、在线客服、教育应用等场景提供了更流畅的用户体验。同时，ElevenLabs对透明度的重视，通过AI Speech Classifier等工具，增强了合成音频的可识别性和可信度。在电影配音和AI语音生成平台的开发中，Turbo v2.5模型的应用将极大地丰富内容创作和个性化表达的可能性。此外，随着团队规模的扩大和工具的完善，ElevenLabs有望在AI语音领域实现更广泛的应用和创新。