音视频

REDcker19 小时前
前端·音视频·实时音视频·直播·webcodecs·videodecoder
WebCodecs VideoDecoder 的 hardwareAcceleration 使用在使用 WebCodecs 的 VideoDecoder 做 H.264 解码时,部分环境下会出现解码器初始化失败、画面无法显示等问题。
gihigo199819 小时前
网络协议·tcp/ip·音视频
基于TCP协议实现视频采集与通信摄像头硬件视频采集模块视频编码模块TCP服务器模块网络传输层客户端管理模块视频解码模块显示与控制终端零拷贝技术
山河君1 天前
算法·音视频·语音识别·信号处理·最小二乘法·tdoa
四麦克风声源定位实战:基于 GCC-PHAT + 最小二乘法实现 DOA在之前的文章👉 声源定位——TDOA多麦克声源定位全解析我们详细推导了二维平面下 TDOA 声源定位的数学原理。
音视频牛哥1 天前
android·人工智能·计算机视觉·音视频·rtmp播放器·安卓rtmp播放器·rtmp直播播放器
Android平台RTMP/RTSP超低延迟直播播放器开发详解——基于SmartMediaKit深度实践摘要:本文以大牛直播SDK(SmartMediaKit)为基础,结合RTMP协议规范,详细讲解如何在Android平台上实现超低延迟的RTMP/RTSP直播播放器,包括架构设计、核心模块封装、参数调优、录像管理以及回放播放等完整工程实践,所有代码均来自真实Demo工程。
qq_416276421 天前
学习·音视频
通用音频表征的对比学习我们提出了 COLA,一种用于学习通用音频表征的自监督预训练方法。该方法基于对比学习:它学习一种表征,使得从同一录音中提取的音频片段具有较高的相似度,而来自不同录音的片段则具有较低的相似度。我们在计算机视觉和强化学习领域近期对比学习进展的基础上,设计了一种轻量级、易于实现的音频自监督模型。我们在大规模 AudioSet 数据库上对嵌入向量进行预训练,并将这些表征迁移到 9 个多样化的分类任务中,包括语音、音乐、动物声音和声学场景等。实验表明,尽管我们的方法结构简单,但其性能显著优于以往的自监督系统。此外,
美狐美颜sdk1 天前
人工智能·音视频·美颜sdk·视频美颜sdk·美狐美颜sdk
Android全局美颜sdk实现方案详解在移动互联网进入“体验为王”的时代,用户对画面质量的要求早已不止于“清晰”。无论是短视频、直播、电商带货,还是在线教育、医疗问诊,只要涉及摄像头场景,“自然、稳定、低延迟”的美颜效果几乎成为标配。尤其在Android生态中,设备型号碎片化严重,实现一套真正意义上的“全局美颜”并不简单。
EasyDSS1 天前
音视频·hls·m3u8·点播技术·智能转码
私有化部署EasyDSS视频点播能力:全链路视频技术赋能,打造企业级视听新体验在数字化时代,视频点播已成为企业内容传播、知识沉淀、用户互动的核心载体,而稳定、高效、可定制的点播能力,更是决定视频平台体验的关键。根据预测,到2026年全球IP视频流量将占据全网流量的82%。
qq_416276421 天前
学习·音视频
DeLoRes——一种通用的音频表征学习新方法(DeLoRes(基于 Barlow Twins 的冗余最小化方法)受计算机视觉领域自监督学习最新进展的启发,本文提出了 DeLoRes——一种通用的音频表征学习新方法。我们的主要目标是在资源受限(包括数据和计算资源)的条件下,使网络学习到能够泛化至多种下游任务的音频表征。受 Barlow Twins 目标函数的启发,我们提出学习对输入音频样本的各种失真具有不变性的嵌入表示,同时确保这些嵌入包含关于原始样本的非冗余信息。具体而言,我们对两个相同网络分别输入同一音频片段的不同失真版本,计算其输出之间的互相关矩阵,并使其尽可能接近单位矩阵。我们在自监督学习阶段仅使用了大规模
Q_4582838681 天前
音视频
从定位到视频:808 + 1078 在各行业的落地实践在中国车联网与行业监管体系中, 中华人民共和国交通运输部发布的 JT/T 808 与 JT/T 1078 标准,已成为商用车辆与特种车辆监管的基础协议体系。
山顶望月川1 天前
人工智能·音视频
实测MiniMax-Hailuo-02:当“开工大吉“变成“无字天书“,国产AI视频模型的能与之不能文生视频请先欣赏一下,这个是MiniMax-Hailuo-02生成的视频,提示词比较简单,如图所示:请给我生成一个布偶猫在灿烂星空降落祝福开工大吉的视频。
mingren_13141 天前
开发语言·c++·音视频
SDL3配置及基本使用(完整demo)1、去sdl官网下载vc版本,这个是给msvc用的,解压后把路径添加到系统环境变量path**例如我的:E:\SDL\SDL3-3.4.2**
电子科技圈1 天前
人工智能·mcu·物联网·设计模式·音视频·边缘计算·iot
XMOS推动智能音频等媒体处理技术从嵌入式系统转向全新边缘计算领先的边缘AI与智能音频技术提供商XMOS日前宣布,公司将参加全球嵌入式与边缘智能领域的年度盛宴国际嵌入式展览会(Embedded World 2026,EW 26),全面展示生成式系统级芯片(GenSoC)、基于音频等媒体技术的实时感知、采用其xcore.ai平台芯片的本地智能与极致交互体验等创新,与行业共启边缘智能新纪元。EW 26将于3月10日-12日在德国纽伦堡会展中心盛大举行。
TSINGSEE1 天前
音视频·视频编解码·画面冻结·花屏检测·画面抖动·蓝屏检测·偏色检测
画面模糊、花屏、遮挡?EasyGBS视频质量诊断让监控故障主动上报在视频监控系统规模化、智能化的今天,一个残酷的现实正在困扰着运维人员与管理者:摄像头数量激增,但“有效画面”并未同步增长。据统计,一个中等规模的城市视频监控系统中,每年约有5%-10%的摄像头会因镜头污损、对焦失灵、传输干扰、设备老化等原因出现画质问题,形成“监控盲区”。
EasyDSS2 天前
音视频·语音识别·语音转写·ai摘要·点播技术·流媒体直播·智能字幕
从“听见”到“理解”:EasyDSS视频会议系统智能字幕、语音转写技术的深度剖析在数字化转型的深水区,视频会议已成为企业运转的“数字神经系统”。然而,传统会议系统正面临三重困境:沟通壁垒——口音、语速、环境噪音导致信息失真;记忆衰减——人类短期记忆只能保留50%的会议内容;价值流失——海量会议录音沉睡在服务器中,难以转化为可检索、可执行的知识资产。
Rabbit_QL2 天前
前端·人工智能·音视频
【音频处理】从 AirPods 主动降噪到音频 Source Separation:同一个问题的两种工程解法地铁上,你戴着 AirPods Pro 打开降噪,车厢轰鸣瞬间消失。与此同时,在某个音频实验室里,工程师正把一段嘈杂的录音拆成人声和背景声两条轨道。这两件事看起来毫无关系——但它们回答的是同一个问题。
EasyGBS2 天前
音视频·花屏·视频质量诊断·画面冻结·画面抖动·偏色检测·噪声检测
国标GB28181视频平台EasyGBS视频质量诊断插件(EasyVQD)详解在视频监控规模化应用的今天,运维人员常常面临一个棘手难题:监控点位动辄上百上千路,画面卡顿、花屏、蓝屏等异常频发,人工逐屏排查不仅效率低下,还极易因疏忽遗漏故障,导致监控失效、安全隐患无法及时发现。
AI-小柒2 天前
大数据·人工智能·网络协议·tcp/ip·http·音视频
Seedance 2.0(即梦 2.0)深度解析:AI 视频进入「导演级」可控时代2026 年 2 月 12 日,字节跳动 Seed 实验室正式发布Seedance 2.0(即梦 2.0) 多模态音视频生成大模型。它以统一多模态联合架构为底座,在运动稳定性、角色一致性、多镜头叙事与音画同步上实现全面突破,成为当前国内最接近工业级生产的 AI 视频模型之一。
YYDataV数据可视化2 天前
音视频·webrtc·实时音视频·ai编程
【P2P音视频通信系统】之TURN 服务详解TURN (Traversal Using Relays around NAT) 是一种网络协议,用于在无法建立 P2P 直连的情况下,通过中继服务器转发媒体数据。当 STUN 无法穿透 NAT 时,TURN 作为最后的解决方案确保连接成功。
xhyu612 天前
笔记·学习·音视频
【学习笔记】推荐系统 (5.排序:多目标模型、MMoE、融合预估分数、视频播放建模)网课:王树森 - 推荐系统公开课点击率=点击次数/曝光次数 点赞率=点赞次数/点击次数 收藏率=收藏次数/点击次数 转发率=转发次数/点击次数
灿宝宝lo2 天前
阿里云·云计算·音视频
阿里云OSS视频自动转码的配置详细步骤有这么一个需求,用户上传的mp4视频,需要转成m3u8的切片格式,由于是web前端直传到oss的,不能再下载后本地切片后上传,所以阿里云提供了媒体处理自动转码的功能。