👉👉原文链接👈👈
阅读详细图文,可访问知识库
「 行业动态 」
◇ 1 分钟诞生一个新 GPT!3 天内定制 GPT 大爆发 🔗 News
在短短 3 天内,全球爆发了大量 GPT 应用,表现出迅猛的增长势头。这与 Altman 在开发者大会上提出的关于"诞生新物种"的主张以及定制 GPT 的激增趋势相一致。OpenAI 的 Karpathy 在推文中也透露了让 GPT 模型成为大型模型操作系统的雄心。具体到技术规格,GPT-4 Turbo 的处理能力、RAM 和文件系统等细节被揭示。此外,GPT-4 Turbo 与 ChatGPT 的整合使用户能够访问多达 128,000 字符的上下文信息。各种 GPT 应用程序正在积极开发中,覆盖了多个领域,如复古风格的 RPG 游戏生成器和梦想贴纸制作器等。引入了"GPTofGPTs"的概念,旨在为特定任务推荐其他 GPT 模型。
◇ 老黄 H100 再破纪录,4 分钟训完 GPT-3! 🔗 News
NVIDIA 的 H100 GPU 在 GPT-3 的训练中取得了显着成绩,NVIDIA 超级计算机 Eos 采用 10,752 个 H100 GPU 和 NVIDIA Quantum-2 InfiniBand 网络,只需 3.9 分钟就完成了 GPT-3 训练,相较于 6 月份的 10.9 分钟有显著提升。此外,NVIDIA 在 MLPerf 测试中创造了新记录,性能优于之前的 Hopper GPU,提高了 2.8 倍,效率提高了 93%。Eos 和 Microsoft Azure 都采用了这一创新平台,展示了 NVIDIA 在数据中心和云部署中的 AI 效率。NVIDIA 还在各种基准测试中提升了性能,包括 1.6 倍的推荐系统模型训练速度提升以及 1.8 倍的 RetinaNet 计算机视觉模型性能提升,NVIDIA 是唯一一家完成所有 MLPerf 测试的公司。
◇ ChatGPT 版 iPhone 终面世! 🔗 News
Sam Altman 投资的消费硬件初创公司 Humane 推出了名为"Ai Pin"的首款人工智能硬件产品,这是一款可穿戴设备,专为与大型 AI 模型进行交互而设计,由 OpenAI 提供技术支持。Ai Pin 具有紧凑且轻便的结构,可以通过磁性附件佩戴在身体的各个部位,采用 OpenAI 的 GPT 大模型,支持语音交互,并具备激光投影系统,可以在用户手上投影屏幕,实现多种功能。该设备荣获《时代》杂志评选的"2023 年最佳发明"之一,而 Humane 的愿景是将人工智能融入日常生活,实现无缝交互。设备拥有紧凑设计,多种颜色可选,配备控制触摸板、Snapdragon 处理器、4GB 内存和 32GB 存储空间,还有摄像头、传感器和个性化声音体验的"个人扬声器"。它运行名为 Cosmos 的操作系统,无需与智能手机配对,集成 ChatGPT,提供实时翻译、物体识别、营养信息等功能,同时还能提供建议、导航、录音回放和紧急警报。
◇ Runway 新功能「运动 笔刷 」再次惊艳 AI 圈 🔗 Twitter
Runway 即将在其视频生成工具 Gen-2 中推出新功能"Motion Brush",这一功能允许用户无需输入文字,只需使用画笔即可控制视频中生成内容的移动,如水、云、火、烟、人物等。Gen-2 引入了文本和图像生成视频的功能,成为市场上首个公开的文本到视频模型,用户可以通过提示和手势简化视频创建和编辑。尽管存在竞争对手 Pika Labs 提供类似功能且免费,但用户期待在 2024 年见证 Pika Labs 和 Runway 之间的竞争,同时也猜测 OpenAI 可能拥有视频生成技术,引发了人们对其 Any-to-any 模型在该领域的质量和能力的质疑。这些工具的开发有望对未来的视频和电影制作产业带来颠覆性影响。
◇ Meta 高管放弃 82 万美元年薪,离职创业! 🔗 News
Rahul Pandey 是 Meta 的前工程师和经理,2022 年,他从 Meta 离职,创办了 Taro,一个帮助其他工程师取得类似职业成功的社区。最终离开时年薪达到了 823,000 美元,远超过他最初对科技工作者年薪的怀疑。在加入 Facebook(后来的 Meta)之前,他在多家硅谷公司工作,包括初创公司和 Pinterest。虽然最初难以适应 Facebook 的文化和工具,但随着时间的推移,他学会了更有效地与团队合作,并取得了巨大的成功。他在 Facebook 表现出色,获得了"远远超出预期"的评价,并最终成为一名经理。他的职业建议包括在一个职位上呆至少两年以建立信任和关系,改进绩效评估策略,以及认识到股票期权在科技行业积累财富方面的价值。Pandey 的成功归因于思维转变和专注于团队建设和高影响力项目交付,他相信简单的见解和策略可以帮助工程师取得职业进步和成就感。
◇ 百度网盘变了!进化成学习神器 🔗 News
百度网盘,作为百度的云存储服务,正日益演变为强大的学习和生产力工具,用户可以为视频添加字幕,选择中文或英文字幕,还能生成 PowerPoint 幻灯片等教育资料,便于学生使用。此外,它支持口语内容转换为文本,有助于语言学习者,同时具备"AI 看"功能,能够总结和分段视频内容,提高学习效率。平台还提供文档扫描功能,满足学生、教师和家长的需求,并通过重新设计界面来提升用户体验。百度网盘集成多种人工智能模型,成为一体化解决方案,满足学习、生产力和内容管理等多种需求。
◇ 北大&腾讯打造多模态 15 边形战士! 🔗 News
北大联合腾讯打造了一个多模态 15 边形战士!研究人员提出了一个叫做 LanguageBind 的多模态预训练框架。它以语言为纽带,将不同模态数据通过对比学习映射到共享特征语义对齐的空间。该框架包括多模态编码器,使用深度视觉 Transformer 和音频频谱图处理非语言数据,以及语言编码器,采用 12 层 Transformer 模型处理文本。通过对比学习,LanguageBind 增强了数据之间的一致性。研究人员创建了 VIDAL-10M 数据集,验证了 LanguageBind 在多模态理解任务上的卓越性能,包括零样本分类,在视频文本分类和音频语言检索等方面明显优于现有技术,如 ImageBind 和 OpenCLIP。
◇ 李飞飞团队新作:脑控机器人做家务 🔗 News
斯坦福大学吴佳俊和李飞飞领导的一个多学科联合团队开发了一种名为 NOIR 的系统,通过解码脑电图信号,使机器人能够执行多样的日常任务,包括烹饪、熨烫、游戏和机器宠物互动等,该系统模块化、适应性强,能够学习和处理各种任务,从而提高效率。NOIR 是通用的,可用于各种任务,采用分层共享自治,人类定义高级目标,机器人执行较低级别的运动命令来实现这些目标。这项研究的潜在应用包括为残疾人等个人开发辅助技术,提高他们的生活质量,解决了通用 BRI 系统、人脑通信信号解码和机器人智能适应性等挑战,实验结果表明 NOIR 系统在各种日常活动中表现出了良好的成绩,具有高的解码准确率和机器人学习算法的有效性。
◇ 网易有道开源 EmotiVoice:支持 2000 种语音的情感控制 TTS 引擎 🔗 Twitter
EmotiVoice 最重要的特点是情感合成,允许合成具有各种情感的语音,包括快乐、兴奋、悲伤、愤怒等。它还提供了一个易于使用的网络界面,还有一个用于批量生成结果的脚本接口。
- Github: github.com/netease-you...
◇ OpenAI 以数百万美元吸引顶尖谷歌 AI 研究人员 🔗 Twitter
OpenAI 为吸引谷歌的顶尖人工智能研究人员提供了数百万美元的薪酬方案,主要以股票期权的形式,可能导致 OpenAI 的估值翻倍,达到 800 亿美元以上。这一举措主要针对从事 Google Gemini 系列 AI 模型开发的 Google 员工,同时一些初级员工也因市场情况而获得加薪。与此同时,微软正在开发名为"Athena"的 AI 芯片,以与 Nvidia 竞争并支持 OpenAI,Athena 计划在 11 月的 Ignite 开发者大会上亮相。谷歌自 2015 年以来一直使用其自定义的张量处理单元(TPU)来执行人工智能任务,TPU 经过优化用于大规模、低精度计算,并广泛应用于 AlphaGo、谷歌街景文本处理以及人工智能模型的训练等各种应用,同时自 2018 年以来,谷歌还向第三方提供 Cloud TPU 服务。
◇ LocoMuJoCo:针对运动量身定制的模仿学习 基准测试 🔗 Twitter
LocoMuJoCo 是专门针对运动的模仿学习基准。它包含多种环境,包括四足动物、两足动物和肌肉骨骼人体模型,每个模型都附带全面的数据集,例如真实噪声运动捕捉数据、地面实况专家数据和地面实况次优数据,从而能够进行跨范围的评估的难度级别。LocoMuJoCo 还允许指定自己的奖励函数,以使用此基准进行纯强化学习。
- Github: github.com/robfiras/lo...
「 融资快讯 」
◇ 精密零组件 AI 制造「量匠」完成千万元天使轮融资 🔗 News
量匠是一家成立于 2022 年的人工智能驱动的精密零零组件制造工厂,最近完成了千万元的天使轮融资,九合创投领投,资金将用于核心技术研发、全行业数字化转型、团队建设、运营和业务拓展。该公司专注于生产非标(超)精密核心部件,应用于多个领域,包括新能源、半导体、航空航天、精密仪器、石油服务和医疗设备。与其他制造商不同,"量匠"致力于通过 AI 技术解决工艺开发问题,旨在创造标准化、可扩展和高质量的生产流程。他们计划向全球市场提供高品质、可预测和有竞争力价格的超高端到中端精密零部件,采用人工智能驱动的制造流程,可显著提高收入和利润率。公司的核心团队具有多领域背景,包括图形学、人工智能、制造系统设计和开发,以及销售和商业化能力,毕业于麻省理工、中科院大学等院校,曾在华为、腾讯、字节跳动、亚马逊、Shopee 等公司工作。
「 早点趣玩 」
◇ Draw-a-UI :像画画一样设计网页 🔗 Twitter
只需在草图软件里绘制所需的网页界面元素,如按钮或文本框的基本线框图。然后,系统会利用 tldraw 和 GPT-4 Vision API,根据你的绘制生成对应的 HTML 页面。其主要原理是将当前绘图画布的 SVG 格式转换为 PNG 图像,随后将此图像发送给 GPT-4 Vision,指示其返回一个包含 Tailwind CSS 的单个 HTML 文件,实现了从手绘线框图到可用的网页界面的自动生成过程。
- Github: github.com/SawyerHood/...
「 课程推荐」
◇ 序列模型和语言模型的强化学习 🔗 YouTube