微软希望将生成式AI带到Windows及其运行的电脑的前沿。
在本周年度Build开发者大会的两场主题演讲中,该公司发布了一系列名为Copilot+的Windows新机型,以及如Recall等生成式AI功能,帮助用户查找过去浏览过的应用、文件和其他内容。Copilot是微软的生成式AI品牌,将很快更加深入地集成到Windows 11体验中。此外,新的微软Surface设备也即将面世。
相关阅读:GPT-4o通过整合文本、音频和视觉实现人性化的AI交互,OpenAI推出了其新的旗舰模型GPT-4o,它无缝整合了文本、音频和视觉输入与输出,有望提高机器交互的自然性。现在Plus用户可以直接使用GPT-4o,关于如何开通Plus,可以使用WildCard平台。
体积应用(Volumetric Apps)
微软正在将Windows体积应用(基本上是具有空间感知的互动VR应用)引入Meta Quest头显。通过与Meta的合作,微软表示将把Windows 365和本地PC连接带到Quest头显上,使开发者能够将他们的应用扩展到3D空间。WildCard也支持Claude, Midjourney, Adobe, Patreon, Midjourney, OF, X等的订阅。
在周二的主题演讲中,微软展示了从Meta Quest 3头显视角看一个Xbox控制器的数字爆炸3D视图------佩戴者可以用手操控这个数字对象。微软Windows和设备部门副总裁Pavan Davuluri在演示中表示:"我们正在加深与Meta的合作,使Windows在Quest设备上成为一流体验。"
开发者可以注册预览版以获取微软新体积API的访问权限。
Copilot+电脑
Copilot+电脑是微软对AI优先、旗舰Windows硬件的愿景。所有这些电脑都配备了名为NPU的专用芯片,以支持Recall等AI体验,并且标配16GB内存和SSD存储。
首批Copilot+电脑将搭载高通的Snapdragon X Elite和Plus芯片,微软声称这些芯片可提供高达15小时的网页浏览和20小时的视频电池续航。芯片制造商英特尔和AMD也承诺与包括宏碁、华硕、戴尔、惠普、联想和三星在内的一系列制造商合作,为Copilot+设备制造处理器。
Copilot+电脑起售价为999美元,部分型号今天即可预购。
Surface Pro和Surface Laptop
微软新发布的Surface设备Surface Laptop和Surface Pro专注于性能和电池续航。
最新的Surface Laptop------提供13.8英寸或15英寸显示屏------采用了"现代线条"重新设计,屏幕边框更窄。它一次充电可持续使用长达22小时,比Surface Laptop 5快了86%。它还支持Wi-Fi 7并配备了触觉反馈触控板。
至于新的Surface Pro,微软表示它比上一代Surface Pro(Surface Pro 9)快了90%,并配备了新的HDR OLED显示屏、Wi-Fi 7(和可选的5G)以及升级的超广角前置摄像头。此外,其可拆卸键盘------经过额外的碳纤维加固------现在也具有触觉反馈。
Recall
即将推出的Windows 11 Recall功能可以"记住"用户几周甚至几个月前在其PC上访问的应用和内容,例如帮助他们找到曾讨论购买衣物的Discord聊天。用户可以使用Recall的时间轴"回滚"查看最近的工作内容,并深入到PowerPoint演示文稿等文件中,以找到可能与他们搜索相关的信息。
微软表示,Recall可以在颜色、图像等之间创建关联,让用户几乎可以用自然语言搜索PC上的任何内容(与初创公司Rewind的技术类似);开发者可以通过向其应用添加上下文信息来改进Recall。微软声称,所有与Recall相关的用户数据都是私密且在设备上的------重要的是,这些数据不会被用于训练AI模型。
微软表示:"您的快照是您的;它们保存在本地PC上。您可以删除单个快照、调整和删除时间范围,或在任何时候通过任务栏系统托盘中的图标暂停。您还可以过滤不想保存的应用和网站。"
图像编辑和实时翻译
Windows中现在的AI功能比以往任何时候都多,其中一些功能仅在新的Copilot+电脑上可用。
一项名为Super Resolution的新功能可以通过自动放大来修复旧照片。Copilot现在还可以分析图像,为用户提供创意构图的建议。通过名为Cocreator的功能,用户可以生成图像,并要求AI模型按照他们的绘图进行修改或重新设计图像。此外,实时字幕和实时翻译功能可以将通过PC传输的任何音频(无论是YouTube还是本地文件)翻译成用户选择的语言。实时翻译最初将支持约40种语言,包括英语、西班牙语、普通话和俄语。
微软Edge浏览器中的一个独立但相关的新功能在LinkedIn、YouTube、Coursera、路透社、CNBC、彭博等网站上提供实时视频翻译。该功能将在不久的将来推出,支持将西班牙语翻译成英语,以及英语翻译成德语、印地语、意大利语、俄语和西班牙语,通过配音和字幕进行实时翻译。
Team Copilot和扩展
Team Copilot是微软不断扩展的生成式AI技术套件的最新扩展。它与公司的视频会议应用Teams集成,帮助管理会议议程并记录会议笔记,会议中的任何人都可以共同撰写笔记。它还扩展到Loop和Planner,微软的协作和计划平台,用于创建和分配任务、跟踪截止日期并在需要团队成员输入时通知他们。
在相关的Copilot新闻中,微软已推出(私密预览版)Copilot扩展,允许开发者使用第三方应用和技能扩展GitHub的代码生成工具GitHub Copilot。启动合作伙伴包括DataStax、Docker和LambdaTest;扩展将存在于GitHub Marketplace中,但开发者也可以创建自己的私人扩展,以与其内部系统和API集成。
Windows Copilot Runtime
支持Recall和Super Resolution等功能的是Windows Copilot Runtime,这是大约40个生成式AI模型的集合,构成了微软所描述的Windows的"新层"。结合语义索引,一个本地于单个Copilot+ PC的基于向量的系统,Windows Copilot Runtime允许生成式AI支持的应用(包括第三方应用)运行,而不一定需要互联网连接。
"[运行时]由现成的AI API组成,如Studio Effects、Live Captions翻译、OCR、用户活动的Recall等,这些将于6月向开发者提供,"Davuluri在周二表示。
微软表示,TikTok母公司字节跳动的流行视频编辑器CapCut将使用Windows Copilot Runtime及其随附的新Windows Copilot库(一组API和AI开发工具)来加速其AI功能。Meta也将在WhatsApp中添加前述的Studio Effects,以提供视频通话中的背景模糊和眼神接触等功能。
升级的机器人构建工具
Azure AI Studio是微软Azure OpenAI服务中的工具集,允许客户结合AI模型并构建能够"推理"这些数据的应用,开发者很快可以使用按需付费的推理API创建应用------开发者可以通过这些API访问和微调托管在Azure基础设施上的生成式AI模型。微软称之为"模型即服务",并将首先推出来自Nixtla和Core42的模型。
在相邻的Copilot Studio产品套件中,微软推出了Copilot代理,微软将其描述为可以"独立协调特定角色和功能的任务"的AI机器人。 (Copilot Studio提供了将Microsoft 365中的Copilot------如Excel和Word中的AI助手------连接到第三方数据的工具。)利用内存和上下文知识,Copilot代理可以导航各种类型的业务流程,从用户反馈中学习,并在遇到不知如何处理的情况时请求帮助。
Snapdragon开发工具包
高通推出了一款面向为搭载Arm芯片的Copilot+电脑开发应用的开发者的新开发工具包。
售价899.99美元的Snapdragon开发工具包------尺寸与苹果的Mac Mini相似------搭载高通的Snapdragon X Elite芯片,配备32GB内存、512GB存储和大量I/O接口。该开发工具包支持Wi-Fi 7和蓝牙5.4,并且通过各种USB-C和HDMI端口可以同时驱动多达三个4K显示器。
Phi-3
微软宣布其生成式AI模型家族Phi的新成员Phi-3-vision,可以执行一般的视觉分析和推理任务,如回答有关图表和图像的问题。该模型可以读取文本和图像,并且高效到可以在移动设备上运行。
Phi-3-vision目前处于预览阶段,而之前宣布的仅文本版本------Phi-3-mini、Phi-3-small和Phi-3-medium------现在已普遍可用。
与可汗学院的合作
微软与可汗学院合作,捐赠云计算基础设施的使用权,使可汗学院能够为美国的教育工作者免费提供其AI驱动的工具。两家公司还将合作探索通过生成式AI改进数学辅导AI应用的机会,微软在周二表示。