每周一期,纵览音视频技术领域的干货。
新闻投稿:contribute@livevideostack.com。
人工智能研究人员声称,通过Zoom音频检测击键的准确率为93%
通过记录按键并训练深度学习模型,三位研究人员声称,基于单个按键的声音特征,他们在解释远程按键方面的准确率达到了90%以上。
GitHub 1.1万星,模拟软件开发流程,开源框架MetaGPT爆火
随着大型语言模型(LLM)的日渐成熟,利用其构建 AI 智能体成为一个新的研究方向。已有研究使用 LLM 驱动多智能体自主完成了一些任务。然而,现有研究主要集中在简单任务上,缺乏对复杂任务的探索。这主要是因为大型语言模型存在「幻觉」问题,特别是当多个智能体相互作用时,幻觉会进一步被放大,以至于无法用于复杂任务。最近,一个名为「MetaGPT」的开源框架尝试解决这个问题。
对话Sam Altman与Greg Brockman:初心和过去,信念和现在,责任和未来
近日,硅谷著名投资人Reid Hoffman和Aria Finger联手对Sam Altman和Greg Brockman进行了一场访谈,访谈涉及到主题有:OpenAI的使命,人工智能对教育、医疗等行业的变革性影响,人工智能如何面对监管,OpenAI成功的关键,未来的发展畅想。
麦肯锡:ChatGPT等生成式AI加速,美国30%工作时间将实现自动化
全球顶级咨询调查机构麦肯锡发布了《生成式AI与美国未来工作》的深度调查报告,详细分析了生成式AI对美国劳动力市场的影响。
AI日报|ChatGPT更聪明了;为什么苹果不主动在AI领域炫技?
此前有消息称,OpenAI 购买了 AI.com,以便将其重定向到 ChatGPT 网页界面,这引起了一阵骚动。
OpenAI CEO亲自示范!自定义指令上手攻略,调教专属定制化AI助手
OpenAI推出了ChatGPT的自定义指令功能后,似乎没有收到用户们的热情回应,Altman本人都下场亲自教大家使用。
本文对室外神经辐射场使用深度先验进行了全面的研究和评估,涵盖了常见的深度传感技术和大多数应用方式。
本文是 ICASSP 2023说话人识别方向论文合集系列第二期,整理了 Speaker Verification 后16篇和 Speaker Diarization 部分的17篇。
基于AI和NPU的Codec变革------VPU与NPU的协同创新
在这个快速变化的数字媒体时代,Codec技术在视频和音频处理中扮演着至关重要的角色。AI的崛起为Codec带来了前所未有的机遇和挑战,同时VPU与NPU的发展与协同创新,使得Codec能够更好地适应复杂的场景和需求。
英特尔是半导体行业和计算创新领域的全球领先厂商。与合作伙伴一起,英特尔推动了人工智能、5G、智能边缘等转折性技术的创新和应用突破,驱动智能互联世界。
业内首次!快手直播盛夏巅峰之夜应用全链路4K+HDR直播技术
2023快手直播盛夏巅峰之夜近期在上海举行,在4小时的直播中,快手首次采用了全链路4K+HDR直播技术,实现了从清晰度到光影色彩的全面提升,为观众呈现了一场极致的视觉盛宴,这也是该项技术在业内大型直播活动中的首次应用。
MediaUni------面向未来的流媒体传输网络设计与实践
本文从应用对流媒体传输网络的要求、MediaUni定位与系统架构、MediaUni技术剖析、基于MediaUni的应用落地和流媒体传输网络的未来5个方面展开介绍。
据中国互联网络信息中心发布的《中国互联网络发展状况统计报告》显示,截止到 2022 年 6 月我国网络直播用户规模达到了 7.16 亿,占网民整体的 68.1% 。
一年一度的华为HDC(开发者大会)如约而至,带来了万众瞩目的HarmonyOS 4.0,盘古大模型、方舟引擎等一系列前沿技术,也亮相新一代无线短距通信技术:星闪 NearLink。
GNSS是所有卫星导航定位系统的总称,凡是可以通过捕获跟踪其卫星信号实现定位的系统,均可纳入GNSS系统的范围。GNSS信号是广播式,即只要你能收到信号,就可以实现定位,不需要用户和卫星进行交互,即理论上来说,GNSS系统的用户容量是无限的。
目前市面关于自动驾驶行泊一体的解决方案基本都用到多颗SoC的策略,常见组合包括低算力TDA4 * 2方案、TDA4 + 3J3方案、高算力Orin * 2(*4)方案、MDC610 * 2方案等等,多颗SoC是如何联合工作的是个很有意思的问题,今天拿TI的双TDA4方案做一下解读,其中的思路可以帮助理解其它多SoC方案。
模拟芯片负责处理连续的模拟信号。半导体市场主要包括集成电路(即芯片)、分立器件、光电子器件、传感器等四大类产品,其中集成电路市场占比最大。
Pro Tools现已免费提供MPEG-H制作插件
Fraunhofer IIS的MPEG-H制作插件现已免费提供给Pro Tools Ultimate客户。前不久,Fraunhofer IIS宣布与Avid建立战略合作伙伴关系。Avid为Pro Tools Ultimate客户提供MPEG-H制作功能,代表着合作关系愈加深入,从而为音频创作开启无限创意可能。
在音频编解码中,MDCT变换是一个非常重要的基础概念,它在MP3和OGG介绍中都有涉及到。MDCT变换是一种数学变换,它将时域信号转换为频域信号,这对于音频编解码来说非常关键。
Spectral sensor可以说是多光谱成像的一个变种。多光谱成像一般是用在食品、工业检测,以及地球遥感成像领域。
CVPR 2023 Tutorial Talk | 走向统一的视觉理解界面
如果我们对计算机视觉模型进行类似的预测,现在我们正在应对不同类型的图像级任务,如图像分类、图像描述,以及像素级任务图像分割等。实际上我们感兴趣的是,如何遵循类似语言模型的发展路径,进行统一,并增进计算机视觉模型的人类-AI 交互。
告别VR噩梦!Meta Reality Labs破解虚拟痛点,重塑全新VR世界
在SIGGRAPH 2023大会上,来自Meta Reality Labs的两个原型机让我们看到了「未来的一瞥」。
显示技术专家Karl谈Vision Pro:用虚拟屏替代物理屏是荒谬想法
近眼显示技术专家卡尔·古塔格(Karl Guttag)对苹果Vision Pro的分析。
在 Linjie Li 的演讲中,她回答了多模态智能体中的重要问题之一:如何用大模型将多模态智能体串联起来。
过去五年里,芯片制造行业发生了重大变化,例如英特尔将桂冠输给了两个相对较新的竞争者------三星和台积电。
NVIDIA使扩展现实流更具可扩展性,可定制给企业和开发人员
各行各业的组织都在使用扩展现实(XR)来重新设计工作流程并提高生产力,无论是沉浸式培训还是协作式设计。
https://blogs.nvidia.com/blog/2023/08/08/cloudxr-suite-simplifies-enterprise-streaming/
一队韩国学者发布两篇论文,宣布物理学领域重大突破,世界震动之余又将信将疑。一些同行试图通过重复实验或计算验证可行性,也有一些学者提醒公众别激动得太早。如今复现实验有了新进展 ------ 整体不乐观,不过出现了积极的证据 ------ 学界还在疑惑,资本市场已被点燃。
专访腾讯技术专家张贤国:十余年视频编码老兵,对技术仍保有敬畏之心
Vision Pro的发布,点燃了空间计算新时代的热潮。作为腾讯云架构平台部香农实验室(以下简称香农实验室)的技术负责人,张贤国向我们分享了香农实验室在视频编解码和空间媒体处理能力的最新进展与布局。
对话咔嚓剪辑金邦飞 | 如果把我的人生类比成播放器去开发与设计...
至今,多媒体的发展史大约有40年的时间,这40年里, 一代代技术人不断投身于多媒体事业的汪洋。LiveVideoStack此次采访金邦飞------深耕该领域的技术老兵。关注多媒体技术标杆的时代故事。
LiveVideoStackCon 2023 深圳站 已启动
LiveVideoStackCon 2023 深圳站音视频技术大会以「沉浸·新视界」为主题。经过近十年的快速发展,多媒体生态正在向精致优化发展,更注重细节、成本,内卷和出海成为压力输出口。一方面,在现有市场及业务竞争仍旧相当激烈的环境下,企业开始更多关注于如何降低成本、追求更高的利润,以及面向用户提供更优质的服务与体验;另一方面,对于不断涌现的更多新的技术、场景,逐步探索并利用其创造更多的业务、产品与商业价值是各企业持续关注的目标。本次深圳站,我们拟邀请几十位来自海内外的音视频领域的专家聚集一堂,与你共同分享他们的专业见解。(点此查看大会讲师名单,更多精彩敬请期待)。
▲ 点击 " 阅读原文 " ▲
跳转LiveVideoStackCon 2023 深圳站 官网,了解更多信息