视觉大模型

【三维重建】ArtiFixer：自回归扩散增强与扩展3DGS（NVIDIA）图1. ArtiFixer高效且可扩展地增强3DGS结果。给定初始重建结果、可选的参考视图及文本提示，该工具可通过自回归方法生成新的内容，同时保持与现有观测数据的高度一致性。ArtiFixer可在单次推理过程中直接生成数百个新视图，或作为伪监督数据用于优化底层三维重建效果。

Qwen-VL模型笔记Qwen-Visual Langugage, 基于 Qwen-7B 的多模态视觉语言大模型. 支持图文理解、文档解析、OCR、视觉问答等任务.

抓住 AI 人工智能的风口之第 5 章 —— 使用视觉大模型（Vision-Language Model）支持图片识别，完善电商智能客服项目本篇博客基于第 3 章博客基础上，引入视觉大模型 Vision-Language Model，支持图片文件上传和识别，第 3 章博客地址：https://blog.csdn.net/BiandanLoveyou/article/details/161004907

【动态重建】SparseCam4D：基于稀疏相机实现时空一致的4D重建技术SparseCam4D: Spatio-Temporally Consistent 4D Reconstruction from Sparse Cameras 项目主页: 浙大CAD；InSpatio Research

【三维重建】Neural Gabor Splatting：基于神经Gabor的增强型3DGS（高频表面重建）Neural Gabor Splatting: Enhanced Gaussian Splatting with Neural Gabor for High-frequency Surface Reconstruction 来源: 东京大学

深兰科技与宝武集团旗下钢友汇达成国际市场合作，俄罗斯、巴西、阿根廷市场同步推进2026年4月14日，深兰人工智能科技(上海)股份有限公司与宝武集团旗下上海钢友汇企业发展有限公司在上海张江总部举行国际市场合作签约仪式。双方将围绕俄罗斯、巴西、阿根廷等重点区域市场展开合作，共同推进具身智能及智能装备产品在海外市场的落地应用。此次签约，标志着深兰科技在国际市场拓展方面进一步加速，也为人工智能技术在多区域、多场景中的规模化应用拓展了新的空间。

大数据AI人工智能培训专家培训讲师叶梓

Merlin：面向腹部 CT 的三维视觉语言基础模型腹部 CT 年检查量巨大且放射科医师资源持续短缺，现有医学视觉语言模型多局限于二维图像与短文本处理，难以解析三维容积信息，且高度依赖人工标注，泛化能力与临床实用性不足。斯坦福大学研究团队提出Merlin，构建原生三维视觉语言模型，联合电子健康记录与放射报告进行无标注预训练，突破二维模型在三维医学影像理解中的局限，实现多任务自动化分析。

【世界模型】WorldWarp：异步视频扩散的3D重建标题：《WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion》项目：https://hyokong.github.io/worldwarp-page/ 来源：新加坡国立大学；香港理工大学

【Vision人工智能设计】Wan（万相）内容创作平台与能力⚡⚡⚡ 新年新文⚡⚡⚡万相网址：https://tongyi.aliyun.com/wan/explore

【Vision人工智能设计】ComfyUI 基础文生图设计⚡⚡⚡ 新年新文⚡⚡⚡本文主要内容是在 ComfyUI 中构建文本生成图像（文生图）工作流的方法，并学习如何通过提示词（Prompt）控制生成图像的风格；如何在 ComfyUI 中将生成的图片高清放大；如何运用模板设计结合 ComfyUI 生成精美海报；ComfyUI 工作流中 LoRA 风格化小模型的使用。

【Vision人工智能设计】ComfyUI 基础图生图设计⚡⚡⚡ 新年新文⚡⚡⚡本节通过加载图像节点与VAE编码节点实现图像风格转换，重点讲解如何将文生图工作流改造为图生图流程。内容包括添加图像加载节点、配置VAE编码器，以及使用Image Resize节点调整输出尺寸。解析降噪参数的调节方法，以0.75–0.8的典型范围为例，说明如何在保留原图特征与生成新风格之间取得平衡，掌握将真实照片转化为 3D CG 风格图像的核心技术。

【点云分割】SNAP:面向任意点云的任意分割标题：《SNAP: Towards Segmenting Anything in Any Point Cloud》项目：https://neu-vi.github.io/SNAP/ 来源：东北大学；The Mathworks

【三维生成】ShapeR：单目视频的条件三维形状生成标题：《ShapeR: Robust Conditional 3D Shape Generation from Casual Captures》项目：facebookresearch.github.io/ShapeR 来源：Meta Reality Labs Research；Simon Fraser University

昵称是6硬币

SAM3D论文精读（逐段解析）论文地址：https://arxiv.org/abs/2511.166242025Meta 超级智能实验室

昵称是6硬币

MobileSAM论文精读（逐段解析）faster segment anything: towards lightweight sam for mobile applications

昵称是6硬币

MobileSAMv2论文精读（逐段解析）论文地址：https://arxiv.org/abs/2312.09579官仓地址：https://github.com/ChaoningZhang/MobileSAM

【无标题】VGGT4D：用于4D场景重建的视觉Transformer运动线索挖掘标题：《VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction》项目：https://3dagentworld.github. io/vggt4d/ 来源：香港科技大学（广州）2Horizon Robotics

昵称是6硬币

SAM3论文精读（逐段解析）论文地址：https://arxiv.org/abs/2511.167192025Meta 超级智能实验室

【multi-model】DINOv2（包含iBOT）& 问答一、DINOv2 1、数据集： LVD-142M数据集，由公开数据集和网络数据集组成，数据集经过PCA哈希去重，NSFW过滤和人脸模糊，整合汇总之后生成1.2亿的数据集； 2、DINOv2的去重方式叫copy detection pipeline（SSCD） ①自去重：去除数据内部冗余第一步：特征提取，提取图片的特征向量第二步：计算余弦相似度，计算每张图片最相近的k=64张图片第三步：只保留相似度大于0.6的近邻对第四步：并查集算法将相似数据连接在一起，形成一个连通分量，每个连通分量只保留一张图片

构建AI智能体：九十五、YOLO视觉大模型入门指南：从零开始掌握目标检测AI大模型蓬勃发展，计算机视觉作为AI领域的重要分支，也正加速在改变着我们的生活。从自动驾驶汽车的环境感知到医疗影像的智能诊断，从智能安防的人脸识别到工业生产的质量检测，计算机视觉技术已经深入到我们生活的方方面面。而在众多视觉技术中，目标检测作为计算机视觉的基础任务之一，更是发挥着至关重要的作用。