论文阅读

SatoshiGogo20 小时前
论文阅读·aigc
AIGC 论文笔记GAN有两个模型,模型G (Generator) 负责拟合训练数据的分布 (也就是拟合概率密度),模型D (Discriminator) 负责评估一个样本是来自训练数据还是来自G的概率,在训练过程中G要尽可能骗过D,而D要尽可能分辨出G生成的样本。两个模型都是MLP,在对抗的过程中得到训练,最终的理想情况是G生成的分布完全拟合训练数据的分布,并且D无法分辨二者 (输出永远是1/2).
walnut_oyb1 天前
论文阅读·人工智能·机器学习·计算机视觉·语言模型·自然语言处理
arXiv|SARLANG-1M:用于 SAR 图像理解的视觉-语言建模基准合成孔径雷达(SAR)是一项关键的遥感技术,具备强地表穿透能力,可实现全天候、全天时观测,能用于精准且持续的环境监测与分析。然而,由于SAR复杂的物理成像机制,以及其视觉表现与人类感知存在显著差异,SAR图像解译仍面临诸多挑战。近年来,视觉语言模型(VLMs)在RGB图像理解领域取得了显著成效,可提供强大的开放词汇解译能力与灵活的语言交互功能。但由于其训练数据分布中缺乏SAR专属知识,这些模型在SAR图像上的应用受到严重限制,导致性能欠佳。
m0_650108242 天前
论文阅读·人工智能·多模态大模型·gemini 2.5·跨模态融合
Gemini 2.5:重塑多模态 AI 边界的全面解读Gemini 2.5 系列模型作为 Google DeepMind 推出的新一代 AI 模型家族,凭借在推理、多模态、长上下文处理及智能体能力上的突破性进展,重新定义了大语言模型的性能基准与应用边界。
钟屿2 天前
论文阅读·人工智能·笔记·学习·计算机视觉
Back to Basics: Let Denoising Generative Models Denoise 论文阅读学习如今的去噪扩散模型并不以经典意义上的"去噪"方式工作,即它们不直接预测干净图像。相反,神经网络预测的是噪声或含噪声的量。在本文中,我们认为预测干净数据与预测含噪声的量存在根本区别。根据流形假设,自然数据应位于低维流形上,而含噪声的量则不然。基于此假设,我们提倡模型应直接预测干净数据,这使得看似容量不足的网络能够在非常高维的空间中有效运作。我们展示了在像素上使用简单的大块Transformer可以成为强大的生成模型:无需分词器、无需预训练、也无需额外损失。我们的方法在概念上无非就是 “仅仅是图像Transf
张较瘦_2 天前
数据库·论文阅读·人工智能
[论文阅读] AI + 数据库 | 拆解智能数据库:交互、管理、内核三层革新,AI 如何重塑数据处理随着大数据时代4V特征(规模性volume、多样性variety、高速性velocity、价值性value) 对传统数据库的革命性挑战,人工智能技术(尤其是机器学习与深度学习) 在表征学习、计算效率及可解释性上的突破,推动了AI与关系型数据库的深度融合,形成新一代智能数据库管理系统。该系统以**“标准化”为核心视角**,通过三大核心层实现创新:智能交互层(自然语言到SQL转化、表格问答,降低用户门槛)、智能管理层(参数调优、索引推荐、数据库诊断等自动化运维,减轻DBA负担)、智能内核层(学习索引、智能查询
橘子是码猴子2 天前
论文阅读
Patch-wise Structural Loss for Time Series Forecasting论文阅读ICML 2025Dilfira Kudrat 1、 Zongxia Xie 1 、Yanru Sun 1 、Tianyu Jia 1 、Qinghua Hu 1
m0_650108243 天前
论文阅读·人工智能·视觉语言模型·deepmind·vlm·通用智能·通用小样本适配
Flamingo:打破模态壁垒的少样本视觉语言模型在多模态机器学习领域,如何让模型仅通过少量标注样本就快速适配新任务,是长期以来的核心挑战。DeepMind 于 2022 年提出的 Flamingo 系列视觉语言模型(VLM),通过创新性的架构设计和训练策略,成功实现了这一目标。
诸葛思颖3 天前
论文阅读·笔记
【论文阅读笔记】FedProx本文针对联邦学习中的两大关键挑战——系统异构性(设备资源不均)和统计异构性(数据非独立同分布)——提出了FedProx优化框架。FedProx是现有方法FedAvg的泛化,通过允许设备执行可变工作量并添加近端项到本地目标函数中,以稳定收敛过程。理论上,论文在非独立同分布数据下提供了收敛保证,并考虑了设备级系统约束;实践上,FedProx在多种真实联邦数据集上表现出比FedAvg更鲁棒的收敛性,在高度异构环境中平均绝对测试准确率提升了22%。
墨绿色的摆渡人3 天前
论文阅读
论文笔记(一百零三)π0.6 : a VLA That Learns From Experience(二)引用:主页: 原文: 代码、数据和视频:系列文章: 请在 《 《 《文章 》 》 》 专栏中查找宇宙声明!
诸葛思颖3 天前
论文阅读·笔记·聚类
【论文阅读笔记】FL+HC(联邦学习+层次聚类)在联邦学习(FL)中引入层次聚类(HC)形成 FL+HC 方法,通过客户端局部模型更新的相似度聚类,为不同聚类训练专属模型。同时给出了适用于未知非IID数据的默认超参数配置。 论文贡献
檐下翻书1734 天前
论文阅读·人工智能·学习·算法·流程图·论文笔记
从入门到精通:流程图制作学习路径规划在数字化时代,流程图作为高效的信息可视化工具,广泛应用于项目管理、逻辑梳理、流程优化等场景。无论是学生梳理论文框架,还是职场人规划业务流程,清晰的流程图都能将复杂逻辑转化为直观的视觉语言,提升沟通效率与决策质量。
iiiiii114 天前
论文阅读·人工智能·笔记·机器学习·ai·学习方法·多实例学习
【论文阅读笔记】多实例学习方法 Diverse Density(DD):在特征空间中寻找正概念的坐标本文介绍1998年由Maron和Lozano-Pérez提出的多实例学习通用框架——Diverse Density。该框架解决一个特殊学习场景:训练数据以"包"(bag)为单位标记,正包包含至少一个正实例(但不知道具体是哪一个),负包仅含负实例。Diverse Density通过最大化"正包交集与负包并集之差"的概率密度来定位目标概念。
ModestCoder_4 天前
论文阅读·人工智能·笔记·学习·机器人·强化学习·具身智能
【学习笔记】Diffusion Policy for Robotics本文档基于我的兴趣与关注,结合扩散模型理论,全面阐述 Diffusion Policy 在机器人领域的应用。文档涵盖理论基础、实践经验、代码实现和前沿研究。
川西胖墩墩4 天前
数据库·论文阅读·人工智能·职场和发展·流程图
流程图在算法设计中的实战应用在算法设计领域,清晰的逻辑梳理是高效开发的核心前提。流程图作为一种可视化的逻辑表达工具,能够将抽象的算法思路转化为直观的图形流程,帮助开发者规避逻辑漏洞、优化执行路径。而一款优质的绘图工具,能让流程图的绘制与应用更高效。本文将聚焦流程图在算法设计中的实战价值,结合国产工具 良功绘图网站(https://www.lghuitu.com) 及多款国外主流工具,从基础认知、实战案例到优化技巧,全面拆解其应用逻辑。
檐下翻书1736 天前
论文阅读·人工智能·信息可视化·流程图·论文笔记
流程图配色与美化:让你的图表会“说话”在数字化办公与信息传达的场景中,流程图是不可或缺的工具——它将复杂的逻辑、流程、关系可视化,帮助读者快速抓取核心信息。但并非所有流程图都能高效传递价值:颜色杂乱、元素堆砌、布局混乱的图表,反而会增加理解成本;而配色和谐、设计精致的流程图,不仅能清晰呈现逻辑,更能通过视觉语言强化重点、传递情绪,真正实现“让图表会说话”。
wbzuo8 天前
论文阅读·人工智能·transformer
Clip:Learning Transferable Visual Models From Natural Language Supervision日期: 2025-10-22 状态: 🟢 已精读用你自己的话简要复述,不要直接复制摘要。论文要解决什么问题? 目前视觉领域已有方法,只能预测模型训练时给定的特定物体类别,即训练时只有猫和狗两种类别,即使马的图片看起来与猫或狗有些相似,模型也无法识别它是马,因为它并没有接触过马的图像或学习过马的特征。
想成为PhD的小提琴手8 天前
论文阅读·语言模型·自动驾驶
论文阅读13——基于大语言模型和视觉模态融合的可解释端到端自动驾驶框架:DriveLLM-V的设计与应用An explainable end-to-end autonomous driving framework based on large language model and vision modality fusion: design and application of DriveLLM-V
想看雪的瓜9 天前
论文阅读·论文笔记
Origin将2D普通的XPS曲线图升级为三维XPS瀑布图XPS数据图包含多条分峰曲线,一方面对比研究拟合的结果,另一方面考察各个分峰位置(结合能)和峰面积的变化。在传统的XPS数据图当中,一般是绘制共用X轴的2D曲线图。本期教程我们使用Origin将2D普通的XPS曲线图升级为三维XPS瀑布图。
DuHz10 天前
论文阅读·算法·汽车·信息与通信·毫米波雷达
基于信号分解的FMCW雷达相互干扰抑制——论文阅读A. Gaur, P. -H. Tseng, K. -T. Feng and S. Srirangarajan, “Signal Decomposition Based Mutual Interference Suppression in FMCW Radars,” in IEEE Open Journal of Vehicular Technology, vol. 6, pp. 2677-2692, 2025, doi: 10.1109/OJVT.2025.3610715.
m0_6501082410 天前
论文阅读·开源·视觉语言大模型·minigpt-4·跨模态对齐·强llm+视觉对齐
MiniGPT-4:解锁 LLM 驱动的高级视觉语言能力在 GPT-4 展现出惊人的多模态能力后,其技术细节的保密特性激发了科研界的探索热情。MiniGPT-4 作为一款开源的视觉 - 语言模型,通过极简的架构设计实现了与 GPT-4 相似的核心能力,为我们揭示了高级大语言模型(LLM)在多模态领域的巨大潜力。