音视频

薛定猫AI2 小时前
人工智能·ui·音视频
【深度解析】Gemini Omni 多模态生成与 Agent 化创作工作流:从视频编辑到 UI 生成的技术演进Google I/O 展示了 Gemini Omni、Gemini 3.5 Flash、Stitch 与 Google Flow 等 AI 创作能力。本文从多模态模型、自然语言视频编辑、Agent 批量创作、UI 生成与开发者 API 集成角度,拆解其技术价值,并给出可落地的 Python 实战示例。
音视频牛哥10 小时前
windows·音视频·实时音视频·windows rtsp播放器·windows rtmp播放器·超低延迟rtsp播放器·超低延迟rtmp播放器
大牛直播SDK(SmartMediaKit)Windows平台RTSP/RTMP直播播放SDK集成说明(C++版)本文介绍大牛直播SDK(SmartMediaKit)在 Windows 平台下 C++ 版 RTSP、RTMP 直播播放 SDK 的集成方法,适用于 MFC、Win32、C++ 桌面客户端等应用场景。内容涵盖 SDK 文件结构、Visual Studio 工程配置、SDK 初始化与销毁、RTSP/RTMP 播放流程、D3D/GDI 双渲染架构、事件回调、下载速度与丢包率监控、播放端 MP4 录像、截图、OSD 台标、RTSP 高级配置、多路播放和常见问题排查。
EasyGBS12 小时前
音视频
1分钟讲清楚选EasyNVR还是国标GB28181视频平台EasyGBS:路线不同,别选错平时跟不少朋友聊起监控平台选型,总会问到EasyNVR和EasyGBS该怎么选。两款都是我们的成熟产品,看着都能接设备、看监控,实则核心路线完全不同——选对了省心省力,选错了容易功能冗余或不够用。今天就用大白话,把这俩的区别说透。
日光明媚13 小时前
人工智能·计算机视觉·aigc·音视频·sglang
深度解析 SGLang 框架 Wan2.1 视频生成加速技术:从 49 分钟到 1 分钟的极致优化Wan2.1 作为当前开源视频生成模型的标杆,其 14B 参数版本在生成质量上已经达到了商业级水准,但原生推理速度却令人望而却步:单卡 A800 生成一段 5 秒 720P 视频需要近 50 分钟。
小猿君13 小时前
人工智能·音视频
谷歌I/O前夜Veo 4遭泄露,AI视频底层逻辑浮出水面谷歌I/O大会开幕前夕,关于Veo 4(或被爆料的称作Gemini Omni)的泄露信息开始在圈内流传,而这次泄露所揭示的并非简单的参数迭代,而是一个真正触及AI视频生成底层范式的技术突破——它开始学会“切镜头”了。
南山有乔木78913 小时前
音视频
音频怎么转换MP3格式?M4A、WAV、FLAC转mp3实测有效的格式转换方法很多人在处理录音、音乐、课程音频、会议文件或者视频提取出来的声音时,经常会遇到一个问题:文件明明是音频,但换到另一个设备上就播放不了。比如手机录音是M4A格式,电脑下载的是WAV或FLAC格式,剪辑软件导出的是AAC格式,放到车载播放器、U盘音响、蓝牙设备或某些平台上传时,就可能提示格式不支持、无法播放、导入失败、文件识别不了。
不昀13 小时前
网络·音视频·以太网·网络通信·电子元器件
音频变压器Bourns SM-LP-5001国产替代选型指南音频变压器用于信号隔离、阻抗匹配和地环路噪声抑制。过去高端市场被Bourns等进口品牌垄断,如今国产产品性能已比肩国际一线。本文将介绍一款对标Bourns SM-LP-5001的音频变压器,并整理8个常见工程问题。
REDcker13 小时前
音视频·实时音视频·视频编解码·yuv·rgb
RGB与YUV像素格式详解摄像头预览发绿、H.264 编码前不知道用 NV12 还是 I420、RGB 转 YUV 后整体偏色——多数不是「公式背错」,而是 像素格式名没对齐:采样方式、平面排布、色域矩阵、量化范围、行跨距里少对齐一项就会踩坑。
水上冰石13 小时前
stable diffusion·音视频·文生视频
v1-5-pruned-emaonly.safetensors 搭配mm_sd_v15_v2.ckpt 生成视频,具体操作步骤注:本文使用RTX5060 8G显存的环境结果:出现该面板即可滚动页面找到 AnimateDiff 面板,按如下顺序设置:
searchforAI13 小时前
人工智能·笔记·gpt·ai·音视频·知识图谱
我用这款本土NotebookLM平替重构了知识库上周,我盯着电脑屏幕上一个两小时的行业研讨会视频,感到前所未有的无力。这是我需要消化的第三份资料——此前还有一期50分钟的播客和一段40分钟的企业内部录音。如果按传统方式处理,我需要耗费至少5小时进行逐字听写与截图。而deadline就在明天。
美狐美颜SDK开放平台14 小时前
android·ios·音视频·直播美颜sdk·视频美颜sdk
美颜SDK开发详解:如何优化美颜SDK在低端安卓机上的性能?在短视频、直播、社交、在线教育等行业快速发展的今天,美颜功能几乎已经成为移动应用的“标配”。无论是直播APP、语聊平台,还是视频社交产品,用户对于实时美颜的要求越来越高:既希望画面足够自然,又要求不卡顿、不发热、低延迟。
wj3055853781 天前
人工智能·音视频
课程 6:图生视频首次运行流程记录第一次使用 Sulphur-2 GGUF + LTX-2.3 工作流进行图生视频的完整过程,包括输入图片、参数、prompt 和运行观察方法。
runafterhit1 天前
音视频
显示调研专题-OLED 终端市场分析报告个人针对显示领域进行专题调研,后续会展开一系列专题,用于锻炼信息收集分析逻辑,提升产品规划能力。系列分析:显示领域进行专题调研-总入口
天上路人1 天前
人工智能·硬件架构·音视频·语音识别·实时音视频
A-59F所有应用模式说明A-59F 是一款高集成语音处理模组,一体化实现 AI ENC 降噪、AEC 回音消除、扩音防啸叫、BF 波束拾音 四大核心能力。支持模拟 / 数字麦克风、模拟 / I2S 数字音频接口,邮票孔 SMT 封装,体积小巧、易嵌入,可大幅简化音频电路,解决噪音、回音、啸叫、定向拾音等痛点。
Likeadust1 天前
音视频·媒体
企业级融媒体生产管理平台/智能会议管理系统EasyDSS构建一体化应急视频指挥体系在自然灾害、安全生产事故等突发事件处置中,应急指挥的核心诉求是数据绝对安全、指令极速传递、态势全面感知。私有化视频会议系统EasyDSS打破传统协作壁垒,为应急指挥打造专属化、高可靠的音视频中枢,成为应急处置的核心技术支撑。
OsDepK1 天前
ide·git·python·音视频·集成学习
AudioSplit音频多轨免费分离工具即将发布AudioSplit是一款可以将音频中人声,伴奏进行高质量分离,并可进行多轨分离对音频中(人声,鼓点,吉他,钢琴,贝斯,其它伴奏)进行分离并输出WAV,FLAC无损格式,MP3轻量有损格式,AudioSplit相较于行业相似产品有着更快的处理速度以及更低的资源能耗,产品将搭载全球顶尖AI模型,可本地免费使用无需联网。
playmaker901 天前
音视频
音频转mid、midi文件处理音视频的时候,或者业余生活个人编曲相关工作,需要mdi、midi文件。这里分享一个开源项目,spotify开源,免费。
EasyDSS1 天前
音视频·媒体
私有化音视频系统/企业级融媒体平台EasyDSS优化升级让视频会议协作更高效在数字化转型加速的今天,私有化视频会议系统已成为政企单位、大型集团保障信息安全、实现高效协同的核心工具。EasyDSS作为深耕私有化视频会议领域的成熟解决方案,为各行业用户打造更安全、更高效、更合规的协同办公体验。
reasonsummer1 天前
音视频
【办公类-135-01】20260515 视频去掉字幕-黑狐字幕工厂
AC赳赳老秦1 天前
python·web安全·ui·音视频·axure·photoshop·openclaw
OpenClaw与Axure联动:自动生成原型图组件、批量修改原型样式,提升设计效率OpenClaw 与 Axure 深度联动:自动化组件生成与批量样式修改的革命性实践摘要: 在当今快速迭代的产品设计领域,原型设计作为连接产品构想与最终实现的桥梁,其效率与质量直接影响着项目进度和用户体验。Axure RP 作为业界领先的原型设计工具,以其强大的交互能力和丰富的组件库深受设计师喜爱。然而,在大型项目或高频迭代场景下,手动创建组件、逐一调整样式等工作依然耗费大量精力。OpenClaw,作为一个新兴的设计自动化与集成平台,通过与 Axure 的深度联动,为解决这些痛点提供了创新方案。本文将深入