音视频

RTC实战笔记2 天前
音视频·数字人·rtc·数字人接入
实时互动数字人怎么做,才不是一个只会说话的视频?过去大家说数字人,更多是在问口播、短视频、直播间素材、品牌宣传片。现在越来越多需求变成了:用户能不能直接问问题?数字人能不能实时回答?能不能接知识库?能不能在展厅、App、网页、客服入口里直接互动?这两类需求看起来都叫“数字人”,技术实现却不是一回事。如果只是口播视频,本质是内容生成链路;如果要实时问答,本质是实时互动系统。后者不只需要一个形象,还需要语音、网络、知识库、大模型、音视频流、业务流程和异常兜底一起工作。
RTC实战笔记14 天前
音视频·媒体·rtc
Android 实时音视频接入教程:媒体补充增强信息(SEI)笔者简介长期关注 RTC 实时音视频领域的技术演进,参与过音视频算法工程化、接入实现与效果评估等相关工作。 在实际项目中,持续关注包括腾讯 TRTC、即构 ZEGO、声网 Agora 在内的多家 RTC 厂商在实时通信能力与工程落地层面的实践,重点关注 SDK 接入、通话链路实现与场景化应用。 本系列文章将围绕 RTC SDK 接入与实时互动能力实现,持续输出工程实践与场景分析。 本文将以 ZEGO 官方 SDK 文档为基础,围绕「媒体补充增强信息(SEI)」梳理完整接入流程,帮助开发者理解环境准备、初始
潜创微科技15 天前
音视频
HDMI1.3 无线传输芯片方案 空旷 150 米量产级音视频方案在会议投屏、多媒体教学、商用数字标牌、家用影音、安防配套设备的硬件开发过程中,传统有线 HDMI 传输存在天然短板:标准 HDMI 线材有效传输距离仅 5 米左右,长线缆极易出现画面闪屏、色彩衰减;光纤延长器物料成本偏高,会大幅拉高整机 BOM,同时长距离布线施工繁琐,无法适配展厅、大型报告厅、多教室分布式部署场景。
VidDown15 天前
javascript·编辑器·音视频·视频编解码·视频
VidDown 工具站:免费、本地优先的开发者工具箱做开发这些年,我收藏了二三十个在线工具:一个格式化 JSON,一个编解码 Base64,一个测试正则,一个查看 IP 子网……每次要用的时候翻书签翻半天,有的网站还要登录,有的甚至上传文件到服务器。后来我干脆自己写了一个工具站——VidDown。目前把日常高频用到的 20 多个工具整合到一起,核心处理尽量在本地完成,不上传敏感数据。这篇文章客观地介绍一下 VidDown 目前能做什么、技术上是如何设计的,以及为什么你可以放心使用。
换个昵称都难15 天前
音视频
音频格式之WAVWAV是基于RIFF结构的音频文件,是微软为windows系统开发的一种标准音频文件格式。如PCM中介绍,粗略的可以理解为wav数据就是加了wav头的pcm数据,实际WAV文件由RIFF chunk、Format chunk 和 Data chunk三个主要区块组成。辅以fact、cue与list chunk。
AI创界者15 天前
人工智能·macos·aigc·音视频
PilotTTS 一键整合包(Win/Mac):8G 显存畅跑,实测解锁情绪与副语言的精准控制xy在当今的 AI 语音生成(TTS)领域,我们不仅追求“声音像”,更追求“有感情”。传统的 TTS 系统往往显得机械、呆板,而最新开源的 **PilotTTS** 则打破了这一瓶颈。它不仅支持极其丰富的情绪表达,还能精准控制**呼吸声、叹气、笑声**等副语言现象。 为了降低大家部署的门槛,本文特地带来 **PilotTTS Windows/Mac 双系统一键免安装整合包**,解压即用,最低 **8G 显存**即可流畅跑出院线级的配音效果! 一、 PilotTTS 核心技术亮点 在正式上手前,我们先来看看
u1521096484915 天前
嵌入式硬件·音视频·实时音视频·视频编解码·视频
S.S.Audio PRO A2音频隔离器内置专业音频隔离变压器,纯无源设计无需供电,彻底切断设备间共地回路,完美解决电脑声卡、笔记本、调音台互联产生的嗡嗡电流声、交流杂音、广播底噪,录音、直播、舞台演出音质纯净无干扰。
VidDown15 天前
javascript·编辑器·音视频·视频编解码·视频
显卡处理视频技术详解:从硬解码到 NVENC,GPU 如何让视频处理起飞?以前用 CPU 转码一个 4K 视频,风扇狂转半小时,电脑卡得连鼠标都动不了。后来换了带 NVENC 的 NVIDIA 显卡,同样的视频两分钟就转完了,而且还能同时刷网页。这背后就是显卡(GPU)在视频处理中的硬件加速能力。这篇文章带你彻底搞懂显卡在视频编码、解码、滤镜处理中的角色,以及如何利用 GPU 加速你的视频工作流。
EasyDSS15 天前
音视频
全能音视频平台/私有化音视频系统EasyDSS!直播/点播/会议/集群对讲一站式落地音视频业务落地,最头疼的就是系统零散、协议不通、部署繁琐、数据不安全。直播单独搭一套、监控回看另配系统、远程会议与集群对讲还要额外对接,多套软件叠加不仅对接成本高、调试周期长,后期运维更是压力倍增。再加上传统平台插件依赖、画面延迟、公有云数据泄露等风险,大大拖慢项目进度。
Damon_X15 天前
音视频
车载音频复习车载音频路由分底层硬件定义 audio_policy_configuration.xml + 车载业务路由 car_audio_configuration.xml,两者配合实现「不同音源路由到不同 address」。
3DVisionary15 天前
人工智能·音视频·应用案例·xtdic-vg·视频引伸计·疲劳测试·实战复盘
告别数据中断:XTDIC-VG视频引伸计在金属疲劳测试中3个真实案例视频引伸计 | XTDIC-VG | 疲劳测试 | 应用案例 | 实战复盘金属材料疲劳测试,是装备制造业最基础也最关键的测试之一。
Deitymoon15 天前
ffmpeg·音视频
RV1126+FFMPEG多路码流监控项目本项目采用的是易百纳RV1126开发板和CMOS摄像头,使用的推流框架是FFMPEG开源项目。这个项目的工作流程如下(如上图):通过采集摄像头的VI模块,再通过硬件编码VENC模块进行H264/H265的编码压缩,并把压缩后的数据通过FFMPEG传输到两个流媒体服务器(如同时推送到流媒体服务器:rtmp://xxx.xxx.xx.xxx:1935/live/01和rtmp://xxx.xxx.xx.xxx:1935/live/02)。
byte轻骑兵15 天前
音视频·avrcp·蓝牙耳机·音频控制·蓝牙车机
【AVRCP】规范精讲[30]:新播放器上线全流程,蓝牙音频如何发现并接管新应用在日常蓝牙音频场景中,我们经常会遇到这样的情况:手机后台挂着QQ音乐,突然打开了新的视频APP播放音频,车机或耳机需要立刻识别到这个新播放器,并自动切换控制对象。很多人只觉得这是正常功能,却不知道这背后是AVRCP一套完整的新播放器上线与接管流程在支撑。本文就来深度拆解这套流程,从事件注册到新应用上线、再到控制绑定的每一步交互,把规范里的底层逻辑变成能直接落地开发的知识体系,吃透多播放器场景下的动态扩容机制。
VidDown15 天前
网络·网络协议·编辑器·音视频·视频编解码·视频
视频帧率技术详解:从 24fps 到 120fps,帧率如何影响你的观看体验?为什么电影看起来有“电影感”?为什么游戏录像 60fps 比 30fps 流畅那么多?为什么直播时帧率太高会卡顿?这些问题的核心都指向一个参数——帧率(Frames Per Second, fps)。帧率决定了视频的流畅度,也直接影响带宽消耗和编码效率。这篇文章从技术原理出发,详细解析帧率的概念、常见值的应用场景、不同传输协议对帧率的处理方式,以及如何用 FFmpeg 和 VidDown 工具查看/修改视频帧率。
HyperAI超神经15 天前
音视频
支持真人/动漫/动物驱动,美团开源多风格音频驱动视频生成框架LongCat 1.5;百万级图表理解数据集ChartNet提升VLM图表重建与表格提取能力LongCat-Video-Avatar 1.5 由美团 LongCat 团队于 2026 年 5 月推出,是一款全新的开源音频驱动视频生成(AI2V)框架。用户仅需提供一张静态参考图和一段音频,即可生成口型精准同步的动态化身视频。该模型采用 Whisper 驱动的语音特征提取;步数蒸馏技术将 DiT 生成过程压缩至极速的 8 步,不仅保证高保真画面,还能生成长视频内容。其全领域泛化能力覆盖真实人像、2D/3D 动漫角色及动物化身,为多场景视频生成提供高效、可靠的解决方案。
3DVisionary15 天前
python·数码相机·音视频·非接触测量·xtdic-vg·视频引伸计·金属疲劳测试
XTDIC-VG视频引伸计技术原理解析:金属疲劳测试的“非接触革命“XTDIC-VG | 视频引伸计 | 金属疲劳测试 | 非接触测量 | 应变测量 | DIC技术金属材料疲劳测试,是航空、汽车、轨道交通、能源装备等核心行业的"基础课"。
狗凯之家源码网15 天前
音视频
苹果 CMS10 酷黑渐变视频站模板落地应用指南在搭建视频内容平台时,很多开发者容易陷入一个误区:过分关注后端存储和带宽成本,却忽视了前端呈现对用户体验的决定性影响。无论是聚合影视资源、展示个人作品集,还是构建企业内部培训库,用户打开页面的前几秒往往决定了去留。如果界面杂乱、加载缓慢或在手机上无法正常播放,再优质的内容也难以触达受众。特别是在当前多终端普及的环境下,一套能够自适应不同屏幕、兼具视觉美感与高性能的架构方案,成为了项目成功的关键。
ai产品老杨15 天前
docker·音视频·边缘计算
架构师视点:基于 Docker 与边缘计算的百路异构视频中台,如何实现 GB28181/RTSP 统一接入与源码交付?在安防智能化与 AIoT 落地潮中,大中型企业和系统集成商在构建视频 AI 项目时,往往会面临三大核心痛点:底层硬件碎片化严重(海思、瑞芯微、算能等异构芯片算子迁移成本高)、流媒体协议对接周期长(GB28181 国标信令级联与 RTSP 状态维护复杂),以及闭源方案二次开发受限。
EasyGBS15 天前
音视频·webrtc
延迟直降90%!国标GB28181视频平台EasyGBS支持WebRTC WHIP推流设备接入,让万物互联更简单你是否遇到过这些接入难题?无人机、运动相机画面质量高,但无法推送到国标平台统一管理;手机App、浏览器端的实时视频,和传统监控系统总是两套体系;
hz5678915 天前
安全·架构·音视频·实时音视频·信息与通信·paas
基于音视频 PaaS 的实时音视频解决方案:技术架构与落地实践摘要:随着远程会诊、线上会商、云端培训、虚拟营业厅等实时交互场景普及,传统自研音视频架构存在开发成本高、弱网适配差、终端兼容弱、迭代周期长等问题。音视频PaaS凭借模块化、可嵌入、高弹性、易集成的优势,成为政企、医疗、金融数字化改造的主流方案。本文从技术架构分层、核心技术能力、部署模式、落地场景、实战避坑五个维度,系统性拆解好视通音视频PaaS的实时音视频解决方案,为开发者与项目实施人员提供可落地的架构参考与选型依据。