技术栈
音视频
RTC实战笔记
2 天前
音视频
·
数字人
·
rtc
·
数字人接入
实时互动数字人怎么做,才不是一个只会说话的视频?
过去大家说数字人,更多是在问口播、短视频、直播间素材、品牌宣传片。现在越来越多需求变成了:用户能不能直接问问题?数字人能不能实时回答?能不能接知识库?能不能在展厅、App、网页、客服入口里直接互动?这两类需求看起来都叫“数字人”,技术实现却不是一回事。如果只是口播视频,本质是内容生成链路;如果要实时问答,本质是实时互动系统。后者不只需要一个形象,还需要语音、网络、知识库、大模型、音视频流、业务流程和异常兜底一起工作。
RTC实战笔记
14 天前
音视频
·
媒体
·
rtc
Android 实时音视频接入教程:媒体补充增强信息(SEI)
笔者简介长期关注 RTC 实时音视频领域的技术演进,参与过音视频算法工程化、接入实现与效果评估等相关工作。 在实际项目中,持续关注包括腾讯 TRTC、即构 ZEGO、声网 Agora 在内的多家 RTC 厂商在实时通信能力与工程落地层面的实践,重点关注 SDK 接入、通话链路实现与场景化应用。 本系列文章将围绕 RTC SDK 接入与实时互动能力实现,持续输出工程实践与场景分析。 本文将以 ZEGO 官方 SDK 文档为基础,围绕「媒体补充增强信息(SEI)」梳理完整接入流程,帮助开发者理解环境准备、初始
潜创微科技
15 天前
音视频
HDMI1.3 无线传输芯片方案 空旷 150 米量产级音视频方案
在会议投屏、多媒体教学、商用数字标牌、家用影音、安防配套设备的硬件开发过程中,传统有线 HDMI 传输存在天然短板:标准 HDMI 线材有效传输距离仅 5 米左右,长线缆极易出现画面闪屏、色彩衰减;光纤延长器物料成本偏高,会大幅拉高整机 BOM,同时长距离布线施工繁琐,无法适配展厅、大型报告厅、多教室分布式部署场景。
VidDown
15 天前
javascript
·
编辑器
·
音视频
·
视频编解码
·
视频
VidDown 工具站:免费、本地优先的开发者工具箱
做开发这些年,我收藏了二三十个在线工具:一个格式化 JSON,一个编解码 Base64,一个测试正则,一个查看 IP 子网……每次要用的时候翻书签翻半天,有的网站还要登录,有的甚至上传文件到服务器。后来我干脆自己写了一个工具站——VidDown。目前把日常高频用到的 20 多个工具整合到一起,核心处理尽量在本地完成,不上传敏感数据。这篇文章客观地介绍一下 VidDown 目前能做什么、技术上是如何设计的,以及为什么你可以放心使用。
换个昵称都难
15 天前
音视频
音频格式之WAV
WAV是基于RIFF结构的音频文件,是微软为windows系统开发的一种标准音频文件格式。如PCM中介绍,粗略的可以理解为wav数据就是加了wav头的pcm数据,实际WAV文件由RIFF chunk、Format chunk 和 Data chunk三个主要区块组成。辅以fact、cue与list chunk。
AI创界者
15 天前
人工智能
·
macos
·
aigc
·
音视频
PilotTTS 一键整合包(Win/Mac):8G 显存畅跑,实测解锁情绪与副语言的精准控制
xy在当今的 AI 语音生成(TTS)领域,我们不仅追求“声音像”,更追求“有感情”。传统的 TTS 系统往往显得机械、呆板,而最新开源的 **PilotTTS** 则打破了这一瓶颈。它不仅支持极其丰富的情绪表达,还能精准控制**呼吸声、叹气、笑声**等副语言现象。 为了降低大家部署的门槛,本文特地带来 **PilotTTS Windows/Mac 双系统一键免安装整合包**,解压即用,最低 **8G 显存**即可流畅跑出院线级的配音效果! 一、 PilotTTS 核心技术亮点 在正式上手前,我们先来看看
u15210964849
15 天前
嵌入式硬件
·
音视频
·
实时音视频
·
视频编解码
·
视频
S.S.Audio PRO A2音频隔离器
内置专业音频隔离变压器,纯无源设计无需供电,彻底切断设备间共地回路,完美解决电脑声卡、笔记本、调音台互联产生的嗡嗡电流声、交流杂音、广播底噪,录音、直播、舞台演出音质纯净无干扰。
VidDown
15 天前
javascript
·
编辑器
·
音视频
·
视频编解码
·
视频
显卡处理视频技术详解:从硬解码到 NVENC,GPU 如何让视频处理起飞?
以前用 CPU 转码一个 4K 视频,风扇狂转半小时,电脑卡得连鼠标都动不了。后来换了带 NVENC 的 NVIDIA 显卡,同样的视频两分钟就转完了,而且还能同时刷网页。这背后就是显卡(GPU)在视频处理中的硬件加速能力。这篇文章带你彻底搞懂显卡在视频编码、解码、滤镜处理中的角色,以及如何利用 GPU 加速你的视频工作流。
EasyDSS
15 天前
音视频
全能音视频平台/私有化音视频系统EasyDSS!直播/点播/会议/集群对讲一站式落地
音视频业务落地,最头疼的就是系统零散、协议不通、部署繁琐、数据不安全。直播单独搭一套、监控回看另配系统、远程会议与集群对讲还要额外对接,多套软件叠加不仅对接成本高、调试周期长,后期运维更是压力倍增。再加上传统平台插件依赖、画面延迟、公有云数据泄露等风险,大大拖慢项目进度。
Damon_X
15 天前
音视频
车载音频复习
车载音频路由分底层硬件定义 audio_policy_configuration.xml + 车载业务路由 car_audio_configuration.xml,两者配合实现「不同音源路由到不同 address」。
3DVisionary
15 天前
人工智能
·
音视频
·
应用案例
·
xtdic-vg
·
视频引伸计
·
疲劳测试
·
实战复盘
告别数据中断:XTDIC-VG视频引伸计在金属疲劳测试中3个真实案例
视频引伸计 | XTDIC-VG | 疲劳测试 | 应用案例 | 实战复盘金属材料疲劳测试,是装备制造业最基础也最关键的测试之一。
Deitymoon
15 天前
ffmpeg
·
音视频
RV1126+FFMPEG多路码流监控项目
本项目采用的是易百纳RV1126开发板和CMOS摄像头,使用的推流框架是FFMPEG开源项目。这个项目的工作流程如下(如上图):通过采集摄像头的VI模块,再通过硬件编码VENC模块进行H264/H265的编码压缩,并把压缩后的数据通过FFMPEG传输到两个流媒体服务器(如同时推送到流媒体服务器:rtmp://xxx.xxx.xx.xxx:1935/live/01和rtmp://xxx.xxx.xx.xxx:1935/live/02)。
byte轻骑兵
15 天前
音视频
·
avrcp
·
蓝牙耳机
·
音频控制
·
蓝牙车机
【AVRCP】规范精讲[30]:新播放器上线全流程,蓝牙音频如何发现并接管新应用
在日常蓝牙音频场景中,我们经常会遇到这样的情况:手机后台挂着QQ音乐,突然打开了新的视频APP播放音频,车机或耳机需要立刻识别到这个新播放器,并自动切换控制对象。很多人只觉得这是正常功能,却不知道这背后是AVRCP一套完整的新播放器上线与接管流程在支撑。本文就来深度拆解这套流程,从事件注册到新应用上线、再到控制绑定的每一步交互,把规范里的底层逻辑变成能直接落地开发的知识体系,吃透多播放器场景下的动态扩容机制。
VidDown
15 天前
网络
·
网络协议
·
编辑器
·
音视频
·
视频编解码
·
视频
视频帧率技术详解:从 24fps 到 120fps,帧率如何影响你的观看体验?
为什么电影看起来有“电影感”?为什么游戏录像 60fps 比 30fps 流畅那么多?为什么直播时帧率太高会卡顿?这些问题的核心都指向一个参数——帧率(Frames Per Second, fps)。帧率决定了视频的流畅度,也直接影响带宽消耗和编码效率。这篇文章从技术原理出发,详细解析帧率的概念、常见值的应用场景、不同传输协议对帧率的处理方式,以及如何用 FFmpeg 和 VidDown 工具查看/修改视频帧率。
HyperAI超神经
15 天前
音视频
支持真人/动漫/动物驱动,美团开源多风格音频驱动视频生成框架LongCat 1.5;百万级图表理解数据集ChartNet提升VLM图表重建与表格提取能力
LongCat-Video-Avatar 1.5 由美团 LongCat 团队于 2026 年 5 月推出,是一款全新的开源音频驱动视频生成(AI2V)框架。用户仅需提供一张静态参考图和一段音频,即可生成口型精准同步的动态化身视频。该模型采用 Whisper 驱动的语音特征提取;步数蒸馏技术将 DiT 生成过程压缩至极速的 8 步,不仅保证高保真画面,还能生成长视频内容。其全领域泛化能力覆盖真实人像、2D/3D 动漫角色及动物化身,为多场景视频生成提供高效、可靠的解决方案。
3DVisionary
15 天前
python
·
数码相机
·
音视频
·
非接触测量
·
xtdic-vg
·
视频引伸计
·
金属疲劳测试
XTDIC-VG视频引伸计技术原理解析:金属疲劳测试的“非接触革命“
XTDIC-VG | 视频引伸计 | 金属疲劳测试 | 非接触测量 | 应变测量 | DIC技术金属材料疲劳测试,是航空、汽车、轨道交通、能源装备等核心行业的"基础课"。
狗凯之家源码网
15 天前
音视频
苹果 CMS10 酷黑渐变视频站模板落地应用指南
在搭建视频内容平台时,很多开发者容易陷入一个误区:过分关注后端存储和带宽成本,却忽视了前端呈现对用户体验的决定性影响。无论是聚合影视资源、展示个人作品集,还是构建企业内部培训库,用户打开页面的前几秒往往决定了去留。如果界面杂乱、加载缓慢或在手机上无法正常播放,再优质的内容也难以触达受众。特别是在当前多终端普及的环境下,一套能够自适应不同屏幕、兼具视觉美感与高性能的架构方案,成为了项目成功的关键。
ai产品老杨
15 天前
docker
·
音视频
·
边缘计算
架构师视点:基于 Docker 与边缘计算的百路异构视频中台,如何实现 GB28181/RTSP 统一接入与源码交付?
在安防智能化与 AIoT 落地潮中,大中型企业和系统集成商在构建视频 AI 项目时,往往会面临三大核心痛点:底层硬件碎片化严重(海思、瑞芯微、算能等异构芯片算子迁移成本高)、流媒体协议对接周期长(GB28181 国标信令级联与 RTSP 状态维护复杂),以及闭源方案二次开发受限。
EasyGBS
15 天前
音视频
·
webrtc
延迟直降90%!国标GB28181视频平台EasyGBS支持WebRTC WHIP推流设备接入,让万物互联更简单
你是否遇到过这些接入难题?无人机、运动相机画面质量高,但无法推送到国标平台统一管理;手机App、浏览器端的实时视频,和传统监控系统总是两套体系;
hz56789
15 天前
安全
·
架构
·
音视频
·
实时音视频
·
信息与通信
·
paas
基于音视频 PaaS 的实时音视频解决方案:技术架构与落地实践
摘要:随着远程会诊、线上会商、云端培训、虚拟营业厅等实时交互场景普及,传统自研音视频架构存在开发成本高、弱网适配差、终端兼容弱、迭代周期长等问题。音视频PaaS凭借模块化、可嵌入、高弹性、易集成的优势,成为政企、医疗、金融数字化改造的主流方案。本文从技术架构分层、核心技术能力、部署模式、落地场景、实战避坑五个维度,系统性拆解好视通音视频PaaS的实时音视频解决方案,为开发者与项目实施人员提供可落地的架构参考与选型依据。