免注册，ChatGPT可即时访问了！

AI又有啥进展？一起看看吧

Apple进军个人家用机器人

Apple在放弃自动驾驶汽车项目并推出混合现实头显后，正在进军个人机器人领域，处于开发家用环境机器人的早期阶段

报告中提到了两种可能的机器人设计。一种是移动机器人，可以跟随用户在房子里四处走动。另一种是固定式机器人，配备屏幕，可以在视频通话时模仿人的头部动作。苹果还考虑长期内推出用于家务劳动的机器人

https://the-decoder.com/apple-sets-its-sights-on-personal-robots-as-next-frontier-after-vision-pro-debut/

SWE-agent：93秒内解决GitHub问题的AI编码器

普林斯顿大学的研究人员开发了SWE-agent，能够将诸如GPT-4之类的语言模型转化为自主软件工程代理。SWE-agent能够在93秒内识别并修复真实世界GitHub仓库中的漏洞和问题！它通过与一个专用的终端进行交互来实现这一目标，该终端允许它打开、滚动和搜索文件，使用自动语法检查编辑特定行，编写和执行测试

在SWE-Bench基准测试中，SWE-agent解决了呈现问题的12.29%，几乎与Cognition AI开发的闭源2100万美元商业AI程序员Devin所达到的13.86%相匹配

https://swe-agent.com/

Stability AI的Stable Audio 2.0来了

Stability AI发布了Stable Audio 2.0，这是一款全新的AI模型，能够生成高质量、全长度的音频轨道。基于其前身，最新模型引入了三项突破性功能：

能够生成长达3分钟的音轨，具有连贯的音乐结构
启用音频到音频的生成功能，允许用户使用自然语言提示转换上传的样本
增强音效生成和风格迁移能力，为艺术家提供更大的灵活性和控制力

Stable Audio 2.0的架构结合了高度压缩的自编码器（autoencoder）和扩散转换器（diffusion transformer，DiT），以生成具有连贯结构的完整音轨。自编码器将原始音频波形压缩成更短的表示形式，捕获关键特征，而DiT则擅长在长序列上操作数据

https://stability.ai/news/stable-audio-2-0

马斯克认为AI可能毁灭人类，但值得冒险

在Abundance Summit的AI辩论研讨会上，马斯克分享了他对AI潜在危险的看法，他估计AI可能对人类构成生存威胁的可能性为10-20%

尽管存在风险，但马斯克认为AI的好处超过了潜在的危险。他强调教会AI保持真实和好奇的重要性，尽管没有具体说明他是如何得出风险评估结论的

https://www.indiatoday.in/technology/news/story/elon-musk-says-there-is-around-10-to-20-percent-chances-of-ai-destroying-humanity-2521670-2024-04-01

OpenAI推出即时访问ChatGPT功能

OpenAI 现在允许用户无需创建账户即可使用 ChatGPT。每周的用户超过 1 亿，遍布 185 个国家，现在任何对其功能好奇的人都可以立即访问它

虽然此举使AI更加易于访问，但OpenAI的其他产品，如DALL-E 3，仍然需要用户创建账户。此外，该公司还引入了新的内容保护措施，并允许用户选择不参与模型训练，即使他们没有账户也可以这样做

https://openai.com/blog/start-using-chatgpt-instantly

Siri能理解用户屏幕上的内容

苹果研究人员开发了一个名为ReALM的AI系统，该系统能够让Siri等语音助手理解屏幕上元素的上下文引用。通过将复杂的引用解析任务转化为语言建模问题，ReALM在理解模糊引用和上下文方面甚至超过了GPT-4

这项创新的关键在于使用解析后的屏幕实体及其位置重建屏幕，以生成能够捕捉视觉布局的文本表示。这种方法与专门用于引用解析的语言模型的微调相结合，使ReALM实现了显著的性能提升

https://arxiv.org/pdf/2403.20329.pdf

微软与OpenAI计划斥资1000亿美元打造超级计算机

微软和OpenAI计划建造一台价值高达1000亿美元的超级计算机"星际之门"（Stargate），以快速推进OpenAI的AI模型开发。知情人士透露，该项目将于2028年启动，2030年完成扩展，将成为计算史上最大的投资之一

Stargate的大部分成本将用于采购数百万个专用AI芯片，资金主要来自微软。同时，微软还计划于2026年推出一个规模较小的价值100亿美元的前置项目"第四阶段"。是否继续推进Stargate项目，将在很大程度上取决于OpenAI在AI能力方面取得的显著进步

https://www.theinformation.com/articles/microsoft-and-openai-plot-100-billion-stargate-ai-supercomputer

OpenAI最新技术仅需15秒即可克隆你的声音

OpenAI最新技术------Voice Engine已经初露端倪，这款AI模型仅需15秒的音频样本和文本输入，即可生成令人惊叹的逼真声音克隆。这项技术能够复制原始说话者的声音，为改进教育材料提供了可能性

尽管该模型具有多种应用，但公司对其可能的滥用保持警惕，尤其是在敏感时期。他们为合作伙伴制定了严格的规则，包括禁止未经授权的冒充行为、对合成声音进行明确标注，以及采取水印和监控等技术措施

https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

Cohere推出"企业最强大的LLM"

Cohere宣布推出其迄今为止最强大且可扩展的LLM------Command R+。这款模型专为企业用例设计，拥有几大关键功能：

先进的检索增强生成（RAG）功能，能够访问和处理大量信息，提高响应的准确性和可靠性
支持十种商业语言，确保在全球组织中的无缝运行
通过与各种软件工具的交互实现复杂工作流程的自动化

此外，Command R+在关键指标上表现优于其他可扩展模型，同时以更低的成本提供强大的准确性

该LLM现已通过Cohere的API提供，并可以部署在包括Microsoft Azure和Oracle Cloud Infrastructure在内的各种云平台上

https://txt.cohere.com/command-r-plus-microsoft-azure/

Higgsfield用AI颠覆视频营销

前Snap AI首席Alex Mashrabov推出了名为Higgsfield AI的新创业公司，旨在让创作者和营销人员能够轻松使用AI驱动的视频创作。该公司的首款应用Diffuse允许用户根据文本描述生成原创视频片段，或编辑现有视频以将自己插入场景中

Higgsfield正在与Sora视频生成器竞争，凭借其移动端、用户友好的工具，它的目标受众更为广泛。尽管有关数据使用和滥用可能性的问题仍然存在，但Higgsfield相信，凭借其逼真且易于使用的视频生成功能，它能在社交媒体营销领域开辟一片天地

https://techcrunch.com/2024/04/03/former-snap-ai-chief-launches-higgsfield-to-take-on-openais-sora-video-generator/