视觉大模型

hhzz11 天前
人工智能·阿里·视觉大模型·wan·万相
【Vision人工智能设计 】Wan(万相) 内容创作平台与能力⚡⚡⚡ 新年新文⚡⚡⚡万相网址:https://tongyi.aliyun.com/wan/explore
hhzz14 天前
人工智能·comfyui·视觉大模型·wan
【Vision人工智能设计 】ComfyUI 基础文生图设计⚡⚡⚡ 新年新文⚡⚡⚡本文主要内容是在 ComfyUI 中构建文本生成图像(文生图)工作流的方法,并学习如何通过提示词(Prompt)控制生成图像的风格;如何在 ComfyUI 中将生成的图片高清放大;如何运用模板设计结合 ComfyUI 生成精美海报;ComfyUI 工作流中 LoRA 风格化小模型的使用。
hhzz15 天前
人工智能·flux·comfyui·视觉大模型·lora模型
【Vision人工智能设计 】ComfyUI 基础图生图设计⚡⚡⚡ 新年新文⚡⚡⚡本节通过加载图像节点与VAE编码节点实现图像风格转换,重点讲解如何将文生图工作流改造为图生图流程。 内容包括添加图像加载节点、配置VAE编码器,以及使用Image Resize节点调整输出尺寸。 解析降噪参数的调节方法,以0.75–0.8的典型范围为例,说明如何在保留原图特征与生成新风格之间取得平衡,掌握将真实照片转化为 3D CG 风格图像的核心技术。
杀生丸学AI18 天前
aigc·扩散模型·视觉大模型·点云分割·lora微调·空间智能
【点云分割】SNAP:面向任意点云的任意分割标题:《SNAP: Towards Segmenting Anything in Any Point Cloud》 项目:https://neu-vi.github.io/SNAP/ 来源:东北大学;The Mathworks
杀生丸学AI1 个月前
aigc·三维重建·扩散模型·图像生成·视觉大模型·lora微调·空间智能
【三维生成】ShapeR:单目视频的条件三维形状生成标题:《ShapeR: Robust Conditional 3D Shape Generation from Casual Captures》 项目:facebookresearch.github.io/ShapeR 来源:Meta Reality Labs Research;Simon Fraser University
昵称是6硬币1 个月前
sam·三维重建·视觉大模型·sam3d
SAM3D论文精读(逐段解析)论文地址:https://arxiv.org/abs/2511.166242025Meta 超级智能实验室
昵称是6硬币1 个月前
sam·蒸馏·视觉大模型·mobilesam
MobileSAM论文精读(逐段解析)faster segment anything: towards lightweight sam for mobile applications
昵称是6硬币1 个月前
sam·视觉大模型·mobilesam·mobilesamv2
MobileSAMv2论文精读(逐段解析)论文地址:https://arxiv.org/abs/2312.09579官仓地址:https://github.com/ChaoningZhang/MobileSAM
杀生丸学AI2 个月前
人工智能·深度学习·3d·aigc·transformer·三维重建·视觉大模型
【无标题】VGGT4D:用于4D场景重建的视觉Transformer运动线索挖掘标题:《VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction》 项目:https://3dagentworld.github. io/vggt4d/ 来源:香港科技大学(广州)2Horizon Robotics
昵称是6硬币3 个月前
图像分割·sam·实例分割·视觉大模型·sam3·开放词汇检测
SAM3论文精读(逐段解析)论文地址:https://arxiv.org/abs/2511.167192025Meta 超级智能实验室
Mr_Oak3 个月前
图像处理·人工智能·深度学习·算法·多模态·对比学习·视觉大模型
【multi-model】DINOv2(包含iBOT)& 问答一、DINOv2 1、数据集: LVD-142M数据集,由公开数据集和网络数据集组成,数据集经过PCA哈希去重,NSFW过滤和人脸模糊,整合汇总之后生成1.2亿的数据集; 2、DINOv2的去重方式叫copy detection pipeline(SSCD) ①自去重:去除数据内部冗余 第一步:特征提取,提取图片的特征向量 第二步:计算余弦相似度,计算每张图片最相近的k=64张图片 第三步:只保留相似度大于0.6的近邻对 第四步:并查集算法将相似数据连接在一起,形成一个连通分量,每个连通分量只保留一张图片
minhuan3 个月前
人工智能·yolo·目标检测·计算机视觉·视觉大模型
构建AI智能体:九十五、YOLO视觉大模型入门指南:从零开始掌握目标检测AI大模型蓬勃发展,计算机视觉作为AI领域的重要分支,也正加速在改变着我们的生活。从自动驾驶汽车的环境感知到医疗影像的智能诊断,从智能安防的人脸识别到工业生产的质量检测,计算机视觉技术已经深入到我们生活的方方面面。而在众多视觉技术中,目标检测作为计算机视觉的基础任务之一,更是发挥着至关重要的作用。
minhuan3 个月前
yolo·计算机视觉·视觉大模型·大模型应用
构建AI智能体:九十六、基于YOLO的智能生活助手:食材识别、植物健康与宠物行为分析在人工智能技术日益普及的今天,计算机视觉正以前所未有的方式改变着我们的日常生活。YOLO作为先进的目标检测算法,以其快速和精准的特性,成为了实现智能视觉应用的得力工具。今天我们将通过四个贴近生活的趣味场景——智能厨房助手、植物健康监测、智能衣橱管理和宠物行为分析,一起领略YOLO技术的魅力。
杀生丸学AI3 个月前
人工智能·3d·aigc·三维重建·视觉大模型·动态高斯
【动态高斯重建】论文集合:从4DGT到OMG4、4DSioMo标题:4DGT: Learning a 4D Gaussian Transformer Using Real-World Monocular Videos 来源:Meta 现实实验室;浙江大学 项目主页:https://4dgt.github.io
杀生丸学AI4 个月前
3d·aigc·slam·跨模态·三维重建·视觉大模型·空间智能
【视频生成】GVS:生成式视图拼接标题:GENERATIVE VIEW STITCHING 来源:MIT CSAIL ;RunwayML 项目:https://andrewsonga.github.io/gvs
杀生丸学AI5 个月前
3d·aigc·slam·语义分割·三维重建·视觉大模型·空间智能
【无标题】SceneSplat:基于视觉-语言预训练的3DGS场景理解标题:<SceneSplat: Gaussian Splatting-based Scene Understanding with Vision-Language Pretraining> 来源:阿姆斯特丹大学计算机视觉实验室、苏黎世联邦理工学院、索菲亚大学圣克利门特·奥赫里德斯基学院、南京航空航天大学、比萨大学、特伦托大学 主页:https://github.com/unique1i/SceneSplat
杀生丸学AI6 个月前
人工智能·3d·aigc·三维重建·视觉大模型·高斯泼溅
【三维重建】3R-GS:优化相机位姿的3DGS最佳实践标题:<3R-GS: Best Practice in Optimizing Camera Poses Along with 3DGS> 来源:德州农工大学,2香港大学,3香港科技大学 主页:https://zsh523.github.io/3R-GS/
杀生丸学AI6 个月前
3d·aigc·三维重建·视觉大模型·动态重建
【无标题】GAP: 用文本指导对任何点云进行高斯化标题:<GAP: Gaussianize Any Point Clouds with Text Guidance> 论文:https://arxiv.org/pdf/2412.01931 来源:南京大学;复旦大学;华为诺亚实验室 主页:https://weiqi-zhang.github.io/GAP.
杀生丸学AI8 个月前
3d·aigc·三维重建·视觉大模型·世界模型·空间智能·动态重建
【物理重建】SPLART:基于3D高斯泼溅的铰链估计与部件级重建标题:《SPLART: Articulation Estimation and Part-Level Reconstruction with 3D Gaussian Splatting》 项目:https://github.com/ripl/splart
杀生丸学AI1 年前
aigc·三维重建·nerf·视觉大模型·3dgs·三维高斯溅射·分割一切sam
【三维分割】Gaga:通过3D感知的 Memory Bank 分组任意高斯地址:https://www.gaga.gallery 标题:Gaga: Group Any Gaussians via 3D-aware Memory Bank 来源:加利福尼亚大学;Nvidia;Google