技术栈
多模态
从零开始学习人工智能
15 小时前
人工智能
·
多模态
·
rag
量化评估RAG效果:LLM答案自动评估脚本全解析
在RAG(检索增强生成)系统的研发与优化过程中,客观、量化地评估回答质量 是核心环节——仅凭人工主观判断不仅效率低下,也无法精准对比不同方案的优劣。本文将详细拆解一款「LLM答案自动评估脚本」,从核心原理、环境搭建、代码实现到实战应用,手把手教你用GPT-4o-mini/GPT-3.5作为“智能评委”,自动化完成RAG回答的多维度打分。
AI模力圈
19 小时前
人工智能
·
多模态
多模态理解类模型技术小结
作者:昇腾实战派 * 3号小金鱼随着人工智能向更复杂、更贴近真实世界的应用演进,单一模态的模型已难以满足对多源信息融合与理解的需求。多模态大模型(Multimodal Large Language Models, MLLMs)应运而生,通过整合图像、文本、语音、视频等多种信息形式,实现跨模态的语义理解与生成能力。这类模型以Transformer架构为基础,将不同模态的数据统一转化为可处理的token序列,在统一的嵌入空间中完成特征对齐与信息融合,从而支持视觉问答、图像描述、多模态对话等丰富任务。近年来,从
山顶夕景
4 天前
python
·
大模型
·
llm
·
agent
·
多模态
·
vlm
【VLM】结合Python沙箱的以图思辨S1-VL模型
【多模态推理大模型进展】基于Qwen3-VL-32B-Thinking做的面向数学、物理、化学、天文、地理、生物六大学科的科学多模态推理模型,主要特点是Python 沙箱执行图像裁剪、缩放、标注等代码,多轮迭代推理。S1-VL: Scientific Multimodal Reasoning Model with Thinking-with-Images,https://arxiv.org/pdf/2604.21409,https://huggingface.co/ScienceOne-AI,https:
s1ckrain
6 天前
论文阅读
·
多模态
·
具身智能
【论文阅读】AstraNav-Memory: Contexts Compression for Long Memory
Motivation具身智能正从单次任务执行向终身多任务学习演进。类人导航的核心特征:在未知环境中具备渐进式推理与探索的能力
一勺汤
9 天前
多模态
·
yolo11改进
·
双backbone
·
yolo12改进
·
yolo26
·
yolo26改进
·
yolo26双backbone
自研双 Backbone 协同检测架构:从根源重构特征提取,解锁单 / 多模态检测精度新上限
在目标检测算法的工业落地过程中,我始终被一个核心瓶颈反复困扰:传统单骨干(Backbone)网络,永远在细节特征与语义特征之间做非此即彼的权衡。
五点钟科技
11 天前
人工智能
·
多模态
·
clip
·
llava
LLaVA 论文精读以及源码网络结构完整分析
论文:Visual Instruction Tuning arXiv: 2304.08485 | NeurIPS 2023 Oral 作者:Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee 机构:University of Wisconsin–Madison, Microsoft Research, Columbia University
xixixi77777
13 天前
人工智能
·
5g
·
ai
·
claude
·
攻击
·
多模态
·
安全架构
AI驱动安全变革:Axios零交互劫持云元数据+CVE-2026-40175,Claude Mythos加速至小时级,攻防不对称重构安全架构
当一个SSRF漏洞可以零交互窃取AWS凭证,当AI将漏洞利用窗口从771天压缩至不足4小时——传统的“被动防御、人工兜底”安全模式,正在系统性失效。
努力的小巴掌
16 天前
语言模型
·
大模型
·
llm
·
多模态
多模态大模型-基础概念
多模态大模型(Multimodal LLM)是指能够同时处理文本、图像、语音、视频等多种数据模态的模型,并在统一表示空间中进行理解与推理。
xixixi77777
17 天前
人工智能
·
5g
·
安全
·
ai
·
fpga开发
·
多模态
通信领域的“中国速度”:从5G-A到6G,从地面到星空
当全球AI产业的目光聚焦于Token调用量的“中美对决”时,另一场同样激烈的较量正在通信领域悄然上演。
Thomas.Sir
18 天前
人工智能
·
python
·
深度学习
·
ai
·
多模态
AI 医疗之重症监护预警系统(ICU-EWS)从理论到实战【时序深度学习与多模态融合】
AI 医疗之临床诊断与辅助决策系列文章请按顺序阅读1、重构诊疗效率与精准度之 AI 赋能临床诊断与辅助决策从理论到实战
nap-joker
19 天前
提示词
·
多模态
·
文本引导图像融合
闭环文本引导框架,用于肺癌病灶分割与定量
1、有匿名版本开源代码:Anonymized Repository - Anonymous GitHub
一勺汤
19 天前
yolo
·
多模态
·
双backbone
·
yolo双backbone
·
单模态
·
yolo26双backbone
·
yolo11双backbone
双骨干并行,极简融合:一款高效双 Backbone 目标检测网络详解(单模态增强创新点,双模态检测)
在 YOLO 系列主导的实时目标检测领域,单 Backbone 的特征表达能力逐渐成为精度提升的核心瓶颈。今天我们详解一款双并行对称 Backbone + 极简同尺度融合的新型目标检测网络,结构简洁、精度提升明显,同时保持极致的推理效率,完全贴合原图架构。
山顶夕景
19 天前
多模态
·
mllm
·
grpo
·
文档多模态
【MLLM】文档多模态MinerU2.5-Pro模型
【文档多模态模型进展】MinerU2.5-Pro更新,主要特点是保留 MinerU2.5 的 1.2B 参数架构,主要改动点是训练数据从不足 1000 万页扩至 6550 万,工作报告在:MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale,https://arxiv.org/pdf/2604.04771, 代码在: https://github.com/opendatalab/MinerU, 模型权重在:
深念Y
22 天前
ide
·
ai
·
语音识别
·
agi
·
多模态
·
文字识别
·
实时语言
多模态技术详解:TTS、ASR、OCR
随着 AI 技术的发展,计算机正在从“看懂文字”向“听懂声音、看懂图像”全面进化。这就是多模态技术——让机器像人类一样,综合运用视觉、听觉、语言等多种感知能力来理解世界。
羊小猪~~
23 天前
大模型
·
llm
·
nlp
·
多模态
·
多模态大模型
·
vit
·
ai算法
LLM--VIT简介
论文精度视频:VIT论文精度,这里做简要概述CNN神经网络是ai算法中最重要,最经典的算法之一,在vit出现之前,Resnet模型一直都是最好的视觉模型;当然CNN也不是没有缺点,其中有两个典型的缺点:局部性和平移不变性。
Flying pigs~~
23 天前
自然语言处理
·
大模型
·
agent
·
多模态
·
rag
·
prompt提示词
多模态RAG实战:从表格到音视频的全链路落地指南
多模态处理 = 对文本、表格、图片、音频、视频等不同模式的数据,分别用最优方案处理,最终融合得到结果的过程。
xixixi77777
25 天前
人工智能
·
安全
·
ai
·
微软
·
大模型
·
多模态
·
合规
微软推出 Critique 双模型协作系统:GPT + Claude 协同,开启“生成 + 审查”新范式
大语言模型的爆发让 AI 辅助工作成为常态,但单一模型的“独角戏”往往存在局限:GPT 系列擅长创意生成与广泛知识,却可能在事实准确性上失分;Claude 以安全、对齐见长,生成内容相对谨慎,有时会“过于保守”。如何兼得两者之长?微软近日推出的 Critique 双模型协作系统给出了答案——通过在同一任务中同时调用 GPT 与 Claude,实现“生成 + 审查”的协同机制,让企业办公与科研效率迈上新台阶。
袋鼠云数栈
1 个月前
大数据
·
数据结构
·
人工智能
·
多模态
集团数字化统战实战:统一数据门户与全业态监管体系构建
在能源行业数字化转型加速的当下,集团型企业的数字化建设已从单点信息化升级为系统级、全局化的数据治理。本次直播围绕集团数字化统战核心,聚焦统一数据门户搭建与全业态监管体系建设,拆解集团数字化痛点、输出解决方案,并结合头部能源企业实践案例,为大型集团数字化转型提供可落地的实战路径。
xx_xxxxx_
1 个月前
人工智能
·
深度学习
·
机器学习
·
transformer
·
多模态
常见多模态架构CLIP/BLIP/Llava/CogVLM
CLIP(Contrastive Language-Image Pre-Training)模型是一种多模态预训练神经网络,由OpenAI在2021年发布,是从自然语言监督中学习的一种有效且可扩展的方法。CLIP在预训练期间学习执行广泛的任务,包括OCR,地理定位,动作识别,并且在计算效率更高的同时优于公开可用的最佳ImageNet模型。 该模型的核心思想是使用大量图像和文本的配对数据进行预训练,以学习图像和文本之间的对齐关系。CLIP模型有两个模态,一个是文本模态,一个是视觉模态,包括两个主要部分: 1.