多模态模型文本预处理方式

句子级别

句子级别的表征编码一整个句子到一个特征中。如果一个句子有多个短语,提取这些短语丢弃其他的单词。

缺点:这种方式会丢失句子中细粒度的信息。

单词级别

将句子中的类别提取出来,结合成一个句子。

缺点:会在类别之间建立不必要的联系,尤其多个类别以随机顺序排列。

子句级别

将句子中的类别提取出来,结合成一个句子,并使用注意力掩码遮蔽掉不相关类别的注意力。保持每个单词特征的细粒度意思。

相关推荐
tianbaolc12 分钟前
Claude Code 技能系统深度解析:核心架构
ai·架构·claude code
G皮T1 小时前
【OpenClaw】思路转变:从 “传统UI测试” 到 “AI驱动的UI测试”
自动化测试·人工智能·ai·agent·测试·ui测试·openclaw
Database_Cool_10 小时前
OpenClaw-Observability:基于 DuckDB 构建 OpenClaw 的全链路可观测体系
数据库·阿里云·ai
集丰照明11 小时前
使用宝塔安装OpenClaw 龙虾教程
ai·宝塔·龙虾
XLYcmy11 小时前
一个针对医疗RAG系统的数据窃取攻击工具
python·网络安全·ai·llm·agent·rag·ai安全
wb0430720112 小时前
使用 Java 开发 MCP 服务并发布到 Maven 中央仓库完整指南
java·开发语言·spring boot·ai·maven
ipython_harley13 小时前
【AGI】OpenAI核心贡献者翁家翌:修Infra的人,正在定义GPT-5
人工智能·gpt·ai·agi
周周爱喝粥呀13 小时前
词元ID是如何转为嵌入向量? 位置嵌入的作用是什么?
人工智能·ai
tianbaolc15 小时前
Claude Code 源码剖析 模块一 · 第六节:autoDream 自动记忆整合
人工智能·ai·架构·claude code
冬奇Lab17 小时前
一天一个开源项目(第64篇):OpenCLI - 把任意网站、Electron 应用与本地工具变成统一 CLI
ai·开源