音视频

m0_726365835 小时前
人工智能·语言模型·ai作画·音视频
Ai漫剧系统 几分钟,让AI 把一篇小说变成了一部漫剧成片:从剧本到视频的全流程系统实现写在前面:这篇是我个人最近做的一套 AI 漫剧自动化生成系统 的开发复盘。 不带任何"卖课/卖软件"目的,纯粹把架构、模块拆分、踩过的坑、AI 路由方案分享出来, 顺便给同样在做 “AIGC 内容生产” 方向的同学一个参考。文末会聊到目前的进度。
非凡ghost9 小时前
windows·智能手机·音视频·firefox
可拓浏览器:给手机浏览器装上“外挂“!2W+拓展+AI搜索,玩出无限可能!用手机浏览器,你是不是也受够了这些憋屈——想装个广告拦截插件,结果系统提示"不支持";想同步电脑上的油猴脚本,发现压根没入口;看视频想倍速播放,平台只给2倍速还收费;更别说什么新拟态主题、PC级交互,手机浏览器仿佛天生就是"功能阉割版"……如果你也渴望打破手机浏览器的功能牢笼,那今天这款可拓浏览器,绝对能让你眼前一亮!
美狐美颜SDK开放平台11 小时前
android·人工智能·ios·音视频·美颜sdk·第三方美颜sdk·短视频美颜sdk
多场景美颜SDK解决方案:直播APP(iOS/安卓)开发接入详解在直播行业持续演进的当下,用户对互动体验的要求,早已不止停留在“能看能播”。画质清晰、人物状态自然、互动氛围真实,正在成为直播平台竞争的新门槛。而在这些体验背后,美颜SDK,已经逐渐从“加分项”变成了直播APP开发中的基础能力模块。
ai产品老杨13 小时前
人工智能·架构·音视频
深度解析:基于国产化异构计算的 AI 视频管理平台架构——从 GB28181 接入到 NPU 边缘推流的解耦实践在安防行业深耕十年,我发现集成商和企业级开发者最头疼的往往不是业务逻辑,而是底层兼容性。面对海量异构硬件(NVIDIA GPU、华为昇腾 NPU、瑞芯微/比特大陆边缘盒子)以及杂乱的视频协议(GB28181、RTSP、ONVIF、私有SDK),传统的开发模式往往需要针对每一款芯片、每一个品牌摄像头重复造轮子。这种高耦合的架构不仅拉长了交付周期,更让维护成本成倍增加。
watson_pillow13 小时前
音视频
音视频相关基础知识储备入门-字幕字幕就是视频里出现的文字:台词翻译、歌词、甚至弹幕。从技术实现角度分为两类:音视频开发中,软字幕才是研究的重点:它更灵活,也带来了渲染、同步、特效等一系列技术挑战。
程序员JerrySUN14 小时前
c语言·开发语言·网络·udp·音视频
Jetson边缘嵌入式实战课程第二讲:JetPack 和 SDK Manager 是什么大家好,我是 孙杰。 一直在做嵌入式系统、边缘设备和 AI 应用相关工作,也持续分享一些技术学习和项目实践中的经验。这套课程的内容,主要也是基于这些年的系统开发和项目积累整理出来的。
weixin_66816 小时前
人工智能·音视频
NVIDIA VSSVideo Search and Summarization视频搜索与摘要蓝图详尽使用说明与技术报告版本NVIDIA VSSVideo Search and Summarization视频搜索与摘要蓝图详尽使用说明与技术报告
jiayong2317 小时前
ai·音视频·agent
国内外视频/图像大模型与智能体工具平台竞品对比优先看 OpenAI、Google Gemini/Veo、BytePlus/ModelArk、Runway、Vidu、MiniMax、Luma、BFL、Stability、Ideogram、Leonardo。它们的文档、鉴权、计费、模型 ID、错误码和示例相对清晰,更适合做业务系统集成。
视频技术分享17 小时前
音视频
技术赋能生态革新:音视频产业开启千亿增长新周期 视频会议成核心增长亮点随着5G网络覆盖不断延伸,AI技术全面渗透音视频内容生产,车载、办公等多场景智能终端快速普及,我国音视频产业正从传统娱乐赛道,加速向全领域数字经济场景渗透,已然成为支撑数字经济发展的核心支柱。公开数据显示,当前国内音视频产业整体规模已经突破5万亿元,专业音视频系统行业预计到2030年将达到5500亿元的市场体量,年复合增长率稳定保持在11.8%的高位。在技术创新、政策支持与场景拓展的三重推力下,覆盖采、编、播、显、传全产业链的音视频行业,正迎来前所未有的发展机遇,包括视频会议在内的多个细分赛道都展现出强劲
音视频牛哥19 小时前
音视频·harmonyos·鸿蒙rtmp播放器·鸿蒙rtsp播放器·鸿蒙rtmp推流·鸿蒙next下rtmp同屏·鸿蒙rtsp服务器
SmartMediaKit 鸿蒙NEXT 产品生态之RTMP推流、轻量级RTSP服务与推送端录像能力详解随着鸿蒙 NEXT 生态逐步走向独立演进,面向政企、能源、教育、医疗、应急、交通、军工、无纸化会议等行业场景,国产化系统平台的重要性正在持续提升。
reasonsummer18 小时前
人工智能·音视频·豆包
【教学类-160-14】20260425 AI视频培训-练习014“豆包AI视频《月下枯蔷(哥特风)》+豆包图片风格:油画”20260425 《014月下枯蔷(哥特风)》风格:油画20260425 《014月下枯蔷(哥特风)》风格:油画
AI服务老曹18 小时前
arm开发·人工智能·音视频
深度解析:支持 GB28181/RTSP 及异构计算(X86/ARM+GPU/NPU)的 AI 视频管理平台架构方案(附源码交付与 Docker 部署)作为安防系统架构师,我们常面临这样的挑战:甲方要求在 X86 服务器上做中心化分析,又要求在 ARM 架构的边缘盒子上做预处理;既要对接传统的 GB28181 国标设备,又要兼容第三方厂商的 RTSP/RTMP 流。
byte轻骑兵19 小时前
人工智能·算法·音视频·语音识别·le audio·低功耗音频
【LE Audio】BASS精讲[5]: 状态特征解析,广播接收状态实时可视全流程在LE Audio的广播音频接收体系中,BASS的两大核心特征构成了指令-状态的完整交互闭环:上一篇解析的Broadcast Audio Scan Control Point是客户端向服务器下发指令的中央指挥台,而本次要详解的Broadcast Receive State则是服务器向客户端实时暴露广播接收状态的智能仪表盘。如果说控制点是让服务器做什么的指令入口,状态特征就是让客户端看得到服务器执行结果的状态窗口,所有与广播源同步、加密解密相关的状态变化,都会实时体现在这个仪表盘上,是客户端感知广播接收过程
LCMICRO-1331084774619 小时前
单片机·嵌入式硬件·fpga开发·音视频·硬件工程·dsp开发·音频adc
长芯微LD1871完全P2P替代AD1871,是一款立体声音频ADC描述长芯微LD1871是一款立体声音频ADC,用于需要高性能模数转换的数字音频应用。本芯片具有两个24位转换通道,每个通道提供105dB的动态范围。芯片的音频数据接口支持I2S、左对齐、右对齐等 常见接口格式;芯片还具有SPI兼容的穿行配置端口,可方便地配置芯片参数和功能。本芯片与国外产品AD1871管脚兼容,可实现替代
甄心爱学习19 小时前
音视频
【数字图像处理】什么是视频任务的隐式神经表征?视频任务的隐式神经表征传统方法与新兴方法的本质区别在于如何“记忆”数据。由于现实图像极其复杂,无法用简单的解析代数式表示,因此引入深度学习模型来拟合该函数。
开开心心就好19 小时前
人工智能·游戏·ci/cd·docker·音视频·语音识别·媒体
支持批量添加水印的实用工具推荐软件介绍图片水印工具是一款专门用来给图片添加水印的工具。之前为了加水印功能安装了某大型图片处理软件,后来发现其实有很多小巧的工具就能满足需求,这款就是其中之一,比大型软件更轻便好用。
y小花19 小时前
android·音视频
安卓音频低延时与AAudio音频延迟是指“音频数据产生→硬件发声”或“硬件拾音→数据上抛”的总耗时,传统AudioTrack/AudioRecord链路延迟普遍在100ms以上,远超实时场景≤45ms的要求。结合前序全链路,延迟主要来源于这几处:
Lanren的编程日记19 小时前
flutter·音视频·harmonyos
任务77:Flutter 鸿蒙应用视频录制功能实战:视频录制+录制控制+视频编辑,打造完整视频处理能力欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.csdn.net
_pengliang19 小时前
uni-app·音视频
uni-app 实现sse流式音频技术方案在 AI 对话场景中,需要实现 边生成边播放 的流式音频体验:最终选择:WebAudioContext + 流式 PCM 数据