多模态模型文本预处理方式

句子级别

句子级别的表征编码一整个句子到一个特征中。如果一个句子有多个短语,提取这些短语丢弃其他的单词。

缺点:这种方式会丢失句子中细粒度的信息。

单词级别

将句子中的类别提取出来,结合成一个句子。

缺点:会在类别之间建立不必要的联系,尤其多个类别以随机顺序排列。

子句级别

将句子中的类别提取出来,结合成一个句子,并使用注意力掩码遮蔽掉不相关类别的注意力。保持每个单词特征的细粒度意思。

相关推荐
哥布林学者8 分钟前
深度学习进阶(二十三)偏置型 RPE
机器学习·ai
要开心吖ZSH21 分钟前
Java AI Agent 开发中的 RAG 实现方案及小白入门指南
java·ai·agent·rag
笨蛋©23 分钟前
2026年制造业实战:工程图纸数字化与自动化检验计划生成指南
ai·数字化·质量管理·制造业·fai
程序猿进阶37 分钟前
OpenClaw Mac 安装教程
java·macos·ai·架构·agent·openclaw
ftpeak1 小时前
LangGraph Agent 开发指南(12~函数式 API)
人工智能·python·ai·langchain·langgraph
Aipollo1 小时前
Harness Engineering驾驭工程:给AI套上缰绳的艺术
人工智能·ai
GISer_Jing2 小时前
BOSS上AIAgent|前端AI所需要技能
前端·人工智能·ai·前端框架
多年小白2 小时前
A股算力租赁板块 深度分析
大数据·人工智能·ai·金融·区块链
汤姆yu2 小时前
Codeium安装与使用全指南
ai·codeium·编程工具
__土块__2 小时前
AI Agent MCP架构设计与技术实现全面解析
ai·架构·agent·mcp·技术实现