aigc

evan20201 小时前
aigc
qwen3-tts 文字转语音 懒人整合包github地址:github.com/QwenLM/Qwen…Qwen3-TTS是通义千问团队开发的开源语音合成模型系列,支持多音色、多语种与多方言的语音生成
evan20201 小时前
aigc
paddleOcr 懒人整合包 添加pdf和图片转markdown 添加GPU支持github地址:github.com/PaddlePaddl…PP-StructureV3——复杂文档解析器, 能够智能地将复杂的PDF和文档图像转换为Markdown和JSON文件,并保留其原始结构。在公开基准测试中,其性能优于众多商业解决方案。完美地维护文档布局和层级结构
evan20201 小时前
aigc
Wan2.2-Animate动作迁移 图片同步视频姿态 懒人整合包github地址:github.com/Wan-Video/W…Wan2.2 是一个开源的 AI视频生成模型框架,主要用于 文本→视频、图片→视频、音频→视频生成。它属于当前比较先进的一类 Video Diffusion(视频扩散模型)。
evan20201 小时前
aigc
IOPaint 开源ai去水印 去除背景 懒人整合包github地址:github.com/Sanster/IOP…IOPaint 是一个 开源的 AI 图像修复与编辑工具,主要用于 AI 局部重绘(Inpainting)和图像内容删除/替换。它允许用户在图片上涂抹要修改的区域,然后利用 AI 自动补全或生成新的内容。
evan20201 小时前
aigc
LatentSync 开源数字人视频对口型 懒人整合包github地址:github.com/bytedance/L…LatentSync‌ 是开源唇形同步(Lip Sync)框架,基于 ‌**Stable Diffusion 的潜在扩散模型**‌,实现从音频到高分辨率视频唇部运动的端到端生成。它无需依赖中间运动表示(如 2D 特征点或 3D 人脸模型),直接在潜在空间中建模音频与视觉的跨模态关联,显著提升生成质量与效率。
evan20201 小时前
aigc
SoulX-FlashHead 实时图片数字人生成器 8GB显存可用 一键懒人整合包下载github地址:github.com/Soul-AILab/…这是一个有soul推出的开源的图片数字人AI,可以实时图片数字人,低显存也可以流畅使用,比如8GB
evan20201 小时前
aigc
开源免费人像抠图神器!CPU也能跑的RMBG去背景(懒人一键搞定版)github地址:github.com/danielgatis…截至到目前,22.1k star它是一款用于去除图片背景的工具,比如保留人像,去除背景,也就是人像抠图,也可以是动物,物品等
evan20202 小时前
aigc
PaddleOCR-VL-1.5 懒人整合包 支持PDF转MD 比PP-StructureV3更精准github地址:github.com/PaddlePaddl…PaddleOCR-VL-1.5:0.9B VLM,专为真实世界文档解析和文本识别而 设计,是一款资源高效且达到最先进水平的模型。它在文档解析任务中,涵盖六大主要场景:正常、倾斜、变形、扫描、多光照和屏幕拍摄,均展现出全面领先优势。该模型引入了领先的文本识别和印章识别功能,增强了对复杂元素(如文本、表格、公式和图表)的解析能力,并将语言支持扩展至111种语言——所有这些都保持了极低的资源消耗
evan20202 小时前
aigc
Qwen_ImageEdit_2511 图片多角度 分镜 懒人整合包GitHub 地址: github.com/QwenLM/Qwen…Qwen-Image-Edit-2511 是通义千问团队推出的最新开源图像编辑模型。相比传统扩散模型,它更专注于“基于文本指令修改图片”,在人物一致性、多图融合及工业级设计能力上表现卓越。
evan20202 小时前
aigc
MatAnyone2 视频去除背景 懒人整合包GitHub 地址: github.com/pq-yang/Mat…MatAnyone2 是近期提出的视频抠图(Video Matting)深度学习模型。它属于计算机视觉领域中“前景分离/Alpha Matting“的研究方向,主要用于从视频中精确提取人物或物体。
evan20202 小时前
aigc
LTX2.3 懒人整合包问题修复 文生视频 图生视频 音频数字人 低显存12G也可用修复的问题:本次懒人包没有新的功能点,只是对之前的一些问题修复处理分卷压缩的文件,需要把所有的压缩包下载下来
evan20202 小时前
aigc
flux-2-Klein-BFS-换头换脸工作流 懒人整合包GitHub 地址: github.com/black-fores…一句话总结:这是一个“轻量 + 快速 + 质量不错”的图像生成模型版本。不是最强,但很“好用”。
evan20202 小时前
aigc
小红书FireRed-OCR 2B 图片和PDF转md 懒人整合包FireRed-OCRgithub地址:github.com/FireRedTeam…FireRed-OCR是一个系统化的框架,旨在将通用的大型视觉语言模型 (LVLM) 专门化为高性能、像素级精确的结构化文档解析专家。
evan20202 小时前
aigc
fashn-vton-1.5 一键换装 懒人整合包github地址:github.com/fashn-AI/fa…项目定位:是什么?fashn-vton-1.5 是一个开源的虚拟试衣模型,旨在提供生产级的高质量生成方案。
evan20202 小时前
aigc
whisperx 语音转字幕 懒人整合包GitHub 地址:github.com/m-bain/whis… 简介:WhisperX 是在 OpenAI 语音识别模型 Whisper 基础上改进的开源自动语音识别(ASR)工具。它通过工程与算法优化,致力于实现更高精度和更高效率的语音转文字(Speech-to-Text),特别适合生产级应用。
爱吃的小肥羊3 小时前
aigc
多模态是假的?李飞飞团队发现AI根本"看不见",靠海市蜃楼效应编造3 月 30 日,斯坦福大学李飞飞团队发布了一篇论文《海市蜃楼:视觉理解的幻象》。研究发现,GPT-5、Gemini 、Claude 这些大模型根本“看不见”。
AI攻城狮4 小时前
人工智能·云原生·aigc
OpenClaw Exec Approvals 机制:在安全与效率之间寻找平衡当你第一次看到 /approve 弹窗时,是选择 allow-once 还是 allow-always?这个看似简单的决定,背后是安全与便利的永恒博弈。
AI先驱体验官7 小时前
大数据·人工智能·深度学习·重构·aigc
AI智能体赛道新机遇:2026机会与挑战深度解析智能体(Agent)正在成为AI应用落地的关键载体。 2026年,随着大模型能力持续提升和开发门槛的降低,智能体赛道迎来了新一轮发展热潮。本文将深入分析这一赛道的现状、机会与挑战,为创业者提供参考。
花千树-0108 小时前
java·人工智能·spring boot·langchain·aigc·ai编程
5分钟用 Java 构建你的第一个 AI 应用项目地址:j-langchain 适合人群:Java 开发者,无需 AI 经验 所需时间:5 分钟目前 AI 应用开发生态几乎被 Python 垄断,LangChain、LlamaIndex 都是 Python 优先。但企业级后端系统大量使用 Java,重写历史服务不现实。
Omics Pro8 小时前
大数据·数据库·人工智能·算法·数据挖掘·数据分析·aigc
端到端单细胞空间组学数据分析空间生物学技术为关联组织组成与功能提供了独特机遇,但量化和解读高度复杂空间数据的分析方法仍较为有限。本文提出CROCHET(组织中细胞异质性表征工具),这是款端到端分析流程,可从覆盖大型样本队列中数百万细胞的原始数据构建空间分辨细胞图谱。其模块化架构支持整合多种数据模态及新颖的图像处理与分割、空间组学量化和下游分析计算方法。CROCHET具备全面、开源、用户友好、交互式的可视化分析模块,旨在向广泛的用户群体普及空间组学技术。