音视频

AI资源库18 分钟前
人工智能·语言模型·音视频
Remotion 一个用 React 程序化制作视频的框架1. packages/core/src/use-current-frame.ts (时间感知器)2. packages/core/src/interpolate.ts (数学映射引擎)
永远都不秃头的程序员(互关)2 小时前
aigc·音视频
基于CANN的ops-signal仓库实现AIGC音频生成中的动态窗函数融合优化——从STFT预处理到端到端低延迟合成在当前AIGC技术快速渗透语音合成、音乐生成与声音设计领域的背景下,频域信号处理已成为构建高质量音频模型的核心环节。短时傅里叶变换(STFT)作为连接时域与频域的桥梁,被广泛应用于Tacotron、DiffSinger等声学模型中。然而,传统实现中窗函数加载、分帧拼接与频谱计算常被拆分为多个独立操作,带来显著的Kernel启动开销与显存访问延迟。本文将以CANN开源生态中尚未被充分关注但极具工程价值的 ops-signal 仓库为切入点,深入剖析其底层信号处理机制,并结合高采样率语音合成任务,实战构建一个
薛定谔的猫喵喵2 小时前
开发语言·qt·音视频
基于PyQt5的视频答题竞赛系统设计与实现视频答题竞赛系统是一个基于PyQt5框架开发的桌面应用程序,旨在为用户提供一个在观看视频时能够随时暂停并记录问题的平台。该系统集成了视频播放、答题记录、截图保存和报告生成等多项功能,适用于教育、培训和竞赛等多种场景。
byte轻骑兵2 小时前
音视频·蓝牙·le audio·cig/cis·广播音频
从HCI报文透视LE Audio重连流程(3):音频流建立、同步与终止在前两篇博客从HCI报文透视LE Audio重连流程(1):以手机与TWS耳机交互为例_百度-CSDN博客 和从HCI报文透视LE Audio重连流程(2):从服务发现到流控管理_百度-CSDN博客,我们详细分析了LE Audio设备从物理层连接到GATT服务发现的完整流程。本文继续深入分析等时流(Isochronous Stream)的建立、配置、数据传输和终止过程,这是LE Audio区别于传统蓝牙音频的核心技术创新。等时流技术为无线音频带来了革命性的改进,包括多设备同步广播、低延迟传输和更高的可靠性
三十_A3 小时前
前端·vue.js·音视频
零基础通过 Vue 3 实现前端视频录制 —— 从原理到实战在传统的安防或直播业务中,视频录制通常由后端流媒体服务器完成。但在某些场景下(如用户想快速保存当前看到的画面、制作简短的证据片段),前端录制具有不可替代的优势:
愚公搬代码3 小时前
人工智能·音视频
【愚公系列】《AI短视频创作一本通》018-AI语音及音乐的创作(短视频背景音乐的选择及创作)💎【行业认证·权威头衔】 ✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家 ✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主 ✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者
sweetone14 小时前
经验分享·音视频
LINN莲CLASSIK桌面音响微修署名 浙江 方位机主的一台英国品牌LINN(莲)CLASSIK(带CD/收音/两声道功放)的桌面音响。由于CD进出仓困难,让笔者帮助修一下。由于该机是交流100V供电,机主感觉外接一个220V/100V变压器不方便,所以想给音响更换一个交流220V供电的变压器。
晚霞的不甘18 小时前
java·后端·spring·架构·音视频
CANN 编译器深度解析:UB、L1 与 Global Memory 的协同调度机制在 GPU 编程中,开发者常关注“显存 vs 寄存器”;而在 Ascend NPU 上,真正的性能战场在 Unified Buffer(UB) ——一块仅 256KB(310P)或 512KB(910B) 的片上高速缓存。
美狐美颜SDK开放平台19 小时前
人工智能·音视频·美颜sdk·直播美颜sdk·视频美颜sdk
多终端适配下的人脸美型方案:美颜SDK工程开发实践分享在直播、电商、短视频、社交应用全面“视频化”的今天,美颜已经从“锦上添花”变成了“基础设施”。但真正参与过美颜SDK工程开发的人都知道:美颜效果好不好是一回事,能不能在多终端、多设备上稳定跑起来,是另一回事。
饭饭大王6661 天前
人工智能·音视频
CANN 生态深度整合:使用 `pipeline-runner` 构建高吞吐视频分析流水线cann组织链接:https://atomgit.com/cann ops-nn仓库链接:https://atomgit.com/cann/ops-nn 在边缘智能与云边协同场景中,实时视频流处理是 AI 落地的核心需求之一。然而,从摄像头输入到结构化输出(如目标检测、行为识别)的完整链路涉及数据采集、预处理、模型推理、后处理等多个阶段,若各环节割裂执行,极易造成资源浪费与延迟升高。
晚霞的不甘1 天前
人工智能·架构·开源·音视频
CANN 编译器深度解析:TBE 自定义算子开发实战当你的模型包含 DCN(可变形卷积)、RoIAlign、自定义注意力机制 等非标准算子时,通用融合规则可能失效。此时,TBE(Tensor Boost Engine) 成为你的终极武器。
愚公搬代码1 天前
人工智能·音视频
【愚公系列】《AI短视频创作一本通》016-AI短视频的生成(AI短视频运镜方法)💎【行业认证·权威头衔】 ✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家 ✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主 ✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者
那个村的李富贵1 天前
aigc·音视频
CANN赋能AIGC“数字人”革命:实时视频换脸与表情驱动实战摘要:数字人(Digital Human)作为AIGC领域最具商业价值的应用之一,对模型推理的实时性、保真度提出了极高要求。本文基于华为昇腾CANN(Compute Architecture for Neural Networks)仓库的实时推理优化技术,深度解析其如何通过算子编译、内存零拷贝、动态批处理等核心技术,将InsightFace、FaceShifter等复杂模型部署至昇腾硬件,实现毫秒级的高保真视频换脸与表情驱动。文章包含完整的模型转换、实时视频流处理代码及性能对比数据,揭秘CANN如何让AI
晚霞的不甘1 天前
人工智能·神经网络·架构·开源·音视频
CANN 支持强化学习:从 Isaac Gym 仿真到机械臂真机控制强化学习的核心挑战在于:“如何让智能体在复杂环境中,以毫秒级响应做出最优决策?”传统 GPU 方案在桌面端表现优异,但在嵌入式机器人、工业机械臂、无人系统等场景中,面临:
晚霞的不甘1 天前
人工智能·神经网络·架构·开源·音视频
CANN 支持多模态大模型:Qwen-VL 与 LLaVA 的端侧部署实战多模态大模型(MLLM)正从“云端玩具”走向“边缘工具”。但一个现实问题是:“百亿参数的 Qwen-VL,如何跑进 8GB 内存、30W 功耗的边缘盒子?”
拾荒的小海螺2 天前
开源·音视频
开源项目:LTX2 高效可控的开源视频生成模型LTX2(LTX-Video 2) 是 Lightricks 团队推出的 新一代开源视频生成模型,属于 Text-to-Video / Image-to-Video 方向。
EasyGBS2 天前
视觉检测·音视频·gb28181·花屏·视频质量诊断·蓝屏检测
视频画面模糊、卡顿、丢失?EasyGBS新增“视频质量诊断”功能,告别人工盯屏近年来,随着视频监控在各行各业的广泛应用,如何保障视频图像的质量成为了行业关注的焦点。为了满足这一需求,国标GB28181视频监控联网EasyGBS算法算力平台,创新性地集成了视频质量诊断功能,为用户提供智能、高效的视频质量监测解决方案。
zhuweisky2 天前
音视频·harmonyos·鸿蒙开发
ArkTS实现鸿蒙手机视频聊天、屏幕分享(HarmonyOS)随着搭配原生鸿蒙(HarmonyOS)系统的电脑和手机越来越普及,之前刚实现鸿蒙版的文字聊天、传文件的Demo ,现在有必要再实现一个鸿蒙版的视频聊天Demo了,该鸿蒙版的Demo也是可以与之前的安卓版和PC版互通的。
XHW___0012 天前
网络·音视频·webrtc
webrtc 关键模块创建的时机
Leinwin2 天前
人工智能·音视频·语音识别
VibeVoice-ASR:突破60分钟长音频处理瓶颈,语音识别进入端到端时代近日,微软宣布开源其新一代语音识别模型VibeVoice-ASR,该模型突破传统语音转文本技术的限制,实现了长音频单次处理的革命性进步,支持单次处理长达60分钟的连续音频输入。