多模态

给算法爸爸上香7 天前
大模型·多模态·qwen-vl·tensorrt-llm
tensorrt-llm部署Qwen-VL首先搭建环境(略)并下载好huggingface的Qwen2-VL-2B-Instruct模型。 测试代码:
feasibility.9 天前
人工智能·llm·多模态·量化·llama.cpp·vlm·llama-factory
多模态模型Qwen-3.5在Llama-Factory使用+llama.cpp量化导出+部署流程(含报错处理)可以去huggingface或hf-mirror镜像站等下载Qwen3.5的模型,比如https://huggingface.co/Qwen/Qwen3.5-0.8B/tree/main 或https://hf-mirror.com/Qwen/Qwen3.5-0.8B/tree/main下载模型相关文件,保存到合适路径,比如/Users/Zhuanz/Desktop/work/Qwen3.5/model
小马过河R9 天前
人工智能·语言模型·大模型·llm·agent·ai编程·多模态
从官方定义读懂智能体的时代分量2026年5月,国家网信办、国家发展改革委、工业和信息化部联合印发《智能体规范应用与创新发展实施意见》,首次以官方文件形式明确:“智能体(Agent)是具备自主感知、记忆、决策、交互与执行能力的智能系统,是人工智能产品及服务的重要形态”。这一定义不仅是对智能体技术属性的精准概括,更标志着我国人工智能产业发展进入了全新阶段,其影响将渗透到技术研发、产业布局、社会治理乃至生活方式的方方面面。
YJlio9 天前
人工智能·chatgpt·aigc·多模态·语音交互·ai工具·图像理解
2023-09-25:ChatGPT 从纯文本走向多模态交互,看、听、说能力意味着什么?2023 年 9 月 25 日,ChatGPT 迎来了一个非常重要的能力节点:开始逐步支持“看、听、说”能力。
weisian15110 天前
人工智能·langchain·多模态
进阶篇-LangChain篇-25--不止于文本:LangChain多模态应用开发作者:Weisian 发布时间:2026年4月直击痛点:“用户:‘这个图表是什么意思?我看不懂。’ AI:‘很抱歉,我是一个纯文本模型,无法识别图片。’ 用户:‘那我描述给你听:有一张柱状图,左边是…’ AI:‘请更详细地描述…’ 用户:‘算了,我放弃了。’——这就是纯文本AI的‘盲人’困境。”
G皮T12 天前
人工智能·ai·agent·多模态·具身智能·skill·openclaw
【人工智能】小镇AI助手诞生记(一文记住40+新兴技术名词)在一个叫“智慧谷”的小镇,镇长打算开发一个AI助手,让它能看懂文字、听懂话、还能看懂图纸和照片——这就叫多模态模型。
Zik----15 天前
人工智能·python·多模态
CILP模型讲解原论文链接:https://arxiv.org/abs/2103.00020 原论文的框架图展示了分为三大阶段:
绵满15 天前
推荐系统·多模态
"Deconfounding Duration Bias in Watch-time Prediction for Video Recommendation" 论文笔记观看时长(watch time)是视频推荐中的重要指标之一,提升整体观看时长是视频推荐系统的主要目标。观看时长主要受两个因素的影响:用户是否对视频感兴趣、视频本身的时长(duration)
feasibility.18 天前
人工智能·科技·语言模型·aigc·多模态·具身智能·世界模型
思想之光照见本源:AI 感官全域觉醒进化史2017年,一篇题为《Attention Is All You Need》的论文悄然出现,它提出的Transformer架构如一道简洁而深刻的数学咒语,解开了序列数据的终极密码。这并非一次普通的技术迭代,而是一场认知的觉醒。就像DNA的双螺旋结构揭示了生命复制的秘密,注意力机制揭示了信息理解的秘密,为机器赋予了阅读世界的能力。
从零开始学习人工智能21 天前
人工智能·多模态·rag
量化评估RAG效果:LLM答案自动评估脚本全解析在RAG(检索增强生成)系统的研发与优化过程中,客观、量化地评估回答质量 是核心环节——仅凭人工主观判断不仅效率低下,也无法精准对比不同方案的优劣。本文将详细拆解一款「LLM答案自动评估脚本」,从核心原理、环境搭建、代码实现到实战应用,手把手教你用GPT-4o-mini/GPT-3.5作为“智能评委”,自动化完成RAG回答的多维度打分。
AI模力圈21 天前
人工智能·多模态
多模态理解类模型技术小结作者:昇腾实战派 * 3号小金鱼随着人工智能向更复杂、更贴近真实世界的应用演进,单一模态的模型已难以满足对多源信息融合与理解的需求。多模态大模型(Multimodal Large Language Models, MLLMs)应运而生,通过整合图像、文本、语音、视频等多种信息形式,实现跨模态的语义理解与生成能力。这类模型以Transformer架构为基础,将不同模态的数据统一转化为可处理的token序列,在统一的嵌入空间中完成特征对齐与信息融合,从而支持视觉问答、图像描述、多模态对话等丰富任务。近年来,从
山顶夕景24 天前
python·大模型·llm·agent·多模态·vlm
【VLM】结合Python沙箱的以图思辨S1-VL模型【多模态推理大模型进展】基于Qwen3-VL-32B-Thinking做的面向数学、物理、化学、天文、地理、生物六大学科的科学多模态推理模型,主要特点是Python 沙箱执行图像裁剪、缩放、标注等代码,多轮迭代推理。S1-VL: Scientific Multimodal Reasoning Model with Thinking-with-Images,https://arxiv.org/pdf/2604.21409,https://huggingface.co/ScienceOne-AI,https:
s1ckrain1 个月前
论文阅读·多模态·具身智能
【论文阅读】AstraNav-Memory: Contexts Compression for Long MemoryMotivation具身智能正从单次任务执行向终身多任务学习演进。类人导航的核心特征:在未知环境中具备渐进式推理与探索的能力
一勺汤1 个月前
多模态·yolo11改进·双backbone·yolo12改进·yolo26·yolo26改进·yolo26双backbone
自研双 Backbone 协同检测架构:从根源重构特征提取,解锁单 / 多模态检测精度新上限在目标检测算法的工业落地过程中,我始终被一个核心瓶颈反复困扰:传统单骨干(Backbone)网络,永远在细节特征与语义特征之间做非此即彼的权衡。
五点钟科技1 个月前
人工智能·多模态·clip·llava
LLaVA 论文精读以及源码网络结构完整分析论文:Visual Instruction Tuning arXiv: 2304.08485 | NeurIPS 2023 Oral 作者:Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee 机构:University of Wisconsin–Madison, Microsoft Research, Columbia University
xixixi777771 个月前
人工智能·5g·ai·claude·攻击·多模态·安全架构
AI驱动安全变革:Axios零交互劫持云元数据+CVE-2026-40175,Claude Mythos加速至小时级,攻防不对称重构安全架构当一个SSRF漏洞可以零交互窃取AWS凭证,当AI将漏洞利用窗口从771天压缩至不足4小时——传统的“被动防御、人工兜底”安全模式,正在系统性失效。
努力的小巴掌1 个月前
语言模型·大模型·llm·多模态
多模态大模型-基础概念多模态大模型(Multimodal LLM)是指能够同时处理文本、图像、语音、视频等多种数据模态的模型,并在统一表示空间中进行理解与推理。
xixixi777771 个月前
人工智能·5g·安全·ai·fpga开发·多模态
通信领域的“中国速度”:从5G-A到6G,从地面到星空当全球AI产业的目光聚焦于Token调用量的“中美对决”时,另一场同样激烈的较量正在通信领域悄然上演。
Thomas.Sir1 个月前
人工智能·python·深度学习·ai·多模态
AI 医疗之重症监护预警系统(ICU-EWS)从理论到实战【时序深度学习与多模态融合】AI 医疗之临床诊断与辅助决策系列文章请按顺序阅读1、重构诊疗效率与精准度之 AI 赋能临床诊断与辅助决策从理论到实战