免注册,ChatGPT可即时访问了!

AI又有啥进展?一起看看吧

Apple进军个人家用机器人

Apple在放弃自动驾驶汽车项目并推出混合现实头显后,正在进军个人机器人领域,处于开发家用环境机器人的早期阶段

报告中提到了两种可能的机器人设计。一种是移动机器人,可以跟随用户在房子里四处走动。另一种是固定式机器人,配备屏幕,可以在视频通话时模仿人的头部动作。苹果还考虑长期内推出用于家务劳动的机器人

https://the-decoder.com/apple-sets-its-sights-on-personal-robots-as-next-frontier-after-vision-pro-debut/

SWE-agent:93秒内解决GitHub问题的AI编码器

普林斯顿大学的研究人员开发了SWE-agent,能够将诸如GPT-4之类的语言模型转化为自主软件工程代理。SWE-agent能够在93秒内识别并修复真实世界GitHub仓库中的漏洞和问题!它通过与一个专用的终端进行交互来实现这一目标,该终端允许它打开、滚动和搜索文件,使用自动语法检查编辑特定行,编写和执行测试

在SWE-Bench基准测试中,SWE-agent解决了呈现问题的12.29%,几乎与Cognition AI开发的闭源2100万美元商业AI程序员Devin所达到的13.86%相匹配

https://swe-agent.com/

Stability AI的Stable Audio 2.0来了

Stability AI发布了Stable Audio 2.0,这是一款全新的AI模型,能够生成高质量、全长度的音频轨道。基于其前身,最新模型引入了三项突破性功能:

  • 能够生成长达3分钟的音轨,具有连贯的音乐结构

  • 启用音频到音频的生成功能,允许用户使用自然语言提示转换上传的样本

  • 增强音效生成和风格迁移能力,为艺术家提供更大的灵活性和控制力

Stable Audio 2.0的架构结合了高度压缩的自编码器(autoencoder)和扩散转换器(diffusion transformer,DiT),以生成具有连贯结构的完整音轨。自编码器将原始音频波形压缩成更短的表示形式,捕获关键特征,而DiT则擅长在长序列上操作数据


https://stability.ai/news/stable-audio-2-0

马斯克认为AI可能毁灭人类,但值得冒险

在Abundance Summit的AI辩论研讨会上,马斯克分享了他对AI潜在危险的看法,他估计AI可能对人类构成生存威胁的可能性为10-20%

尽管存在风险,但马斯克认为AI的好处超过了潜在的危险。他强调教会AI保持真实和好奇的重要性,尽管没有具体说明他是如何得出风险评估结论的

https://www.indiatoday.in/technology/news/story/elon-musk-says-there-is-around-10-to-20-percent-chances-of-ai-destroying-humanity-2521670-2024-04-01

OpenAI推出即时访问ChatGPT功能

OpenAI 现在允许用户无需创建账户即可使用 ChatGPT。每周的用户超过 1 亿,遍布 185 个国家,现在任何对其功能好奇的人都可以立即访问它

虽然此举使AI更加易于访问,但OpenAI的其他产品,如DALL-E 3,仍然需要用户创建账户。此外,该公司还引入了新的内容保护措施,并允许用户选择不参与模型训练,即使他们没有账户也可以这样做

https://openai.com/blog/start-using-chatgpt-instantly

Siri能理解用户屏幕上的内容

苹果研究人员开发了一个名为ReALM的AI系统,该系统能够让Siri等语音助手理解屏幕上元素的上下文引用。通过将复杂的引用解析任务转化为语言建模问题,ReALM在理解模糊引用和上下文方面甚至超过了GPT-4

这项创新的关键在于使用解析后的屏幕实体及其位置重建屏幕,以生成能够捕捉视觉布局的文本表示。这种方法与专门用于引用解析的语言模型的微调相结合,使ReALM实现了显著的性能提升

https://arxiv.org/pdf/2403.20329.pdf

微软与OpenAI计划斥资1000亿美元打造超级计算机

微软和OpenAI计划建造一台价值高达1000亿美元的超级计算机"星际之门"(Stargate),以快速推进OpenAI的AI模型开发。知情人士透露,该项目将于2028年启动,2030年完成扩展,将成为计算史上最大的投资之一

Stargate的大部分成本将用于采购数百万个专用AI芯片,资金主要来自微软。同时,微软还计划于2026年推出一个规模较小的价值100亿美元的前置项目"第四阶段"。是否继续推进Stargate项目,将在很大程度上取决于OpenAI在AI能力方面取得的显著进步

https://www.theinformation.com/articles/microsoft-and-openai-plot-100-billion-stargate-ai-supercomputer

OpenAI最新技术仅需15秒即可克隆你的声音

OpenAI最新技术------Voice Engine已经初露端倪,这款AI模型仅需15秒的音频样本和文本输入,即可生成令人惊叹的逼真声音克隆。这项技术能够复制原始说话者的声音,为改进教育材料提供了可能性

尽管该模型具有多种应用,但公司对其可能的滥用保持警惕,尤其是在敏感时期。他们为合作伙伴制定了严格的规则,包括禁止未经授权的冒充行为、对合成声音进行明确标注,以及采取水印和监控等技术措施

https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

Cohere推出"企业最强大的LLM"

Cohere宣布推出其迄今为止最强大且可扩展的LLM------Command R+。这款模型专为企业用例设计,拥有几大关键功能:

  • 先进的检索增强生成(RAG)功能,能够访问和处理大量信息,提高响应的准确性和可靠性

  • 支持十种商业语言,确保在全球组织中的无缝运行

  • 通过与各种软件工具的交互实现复杂工作流程的自动化

此外,Command R+在关键指标上表现优于其他可扩展模型,同时以更低的成本提供强大的准确性

该LLM现已通过Cohere的API提供,并可以部署在包括Microsoft Azure和Oracle Cloud Infrastructure在内的各种云平台上

https://txt.cohere.com/command-r-plus-microsoft-azure/

Higgsfield用AI颠覆视频营销

前Snap AI首席Alex Mashrabov推出了名为Higgsfield AI的新创业公司,旨在让创作者和营销人员能够轻松使用AI驱动的视频创作。该公司的首款应用Diffuse允许用户根据文本描述生成原创视频片段,或编辑现有视频以将自己插入场景中

Higgsfield正在与Sora视频生成器竞争,凭借其移动端、用户友好的工具,它的目标受众更为广泛。尽管有关数据使用和滥用可能性的问题仍然存在,但Higgsfield相信,凭借其逼真且易于使用的视频生成功能,它能在社交媒体营销领域开辟一片天地

https://techcrunch.com/2024/04/03/former-snap-ai-chief-launches-higgsfield-to-take-on-openais-sora-video-generator/

相关推荐
孙同学要努力1 小时前
全连接神经网络案例——手写数字识别
人工智能·深度学习·神经网络
Eric.Lee20211 小时前
yolo v5 开源项目
人工智能·yolo·目标检测·计算机视觉
其实吧32 小时前
基于Matlab的图像融合研究设计
人工智能·计算机视觉·matlab
丕羽2 小时前
【Pytorch】基本语法
人工智能·pytorch·python
ctrey_2 小时前
2024-11-1 学习人工智能的Day20 openCV(2)
人工智能·opencv·学习
SongYuLong的博客3 小时前
Air780E基于LuatOS编程开发
人工智能
Jina AI3 小时前
RAG 系统的分块难题:小型语言模型如何找到最佳断点?
人工智能·语言模型·自然语言处理
-派神-3 小时前
大语言模型(LLM)量化基础知识(一)
人工智能·语言模型·自然语言处理
johnny_hhh3 小时前
AI大模型重塑软件开发流程:定义、应用场景、优势、挑战及未来展望
人工智能
Elastic 中国社区官方博客3 小时前
释放专利力量:Patently 如何利用向量搜索和 NLP 简化协作
大数据·数据库·人工智能·elasticsearch·搜索引擎·自然语言处理