多模态模型文本预处理方式

句子级别

句子级别的表征编码一整个句子到一个特征中。如果一个句子有多个短语,提取这些短语丢弃其他的单词。

缺点:这种方式会丢失句子中细粒度的信息。

单词级别

将句子中的类别提取出来,结合成一个句子。

缺点:会在类别之间建立不必要的联系,尤其多个类别以随机顺序排列。

子句级别

将句子中的类别提取出来,结合成一个句子,并使用注意力掩码遮蔽掉不相关类别的注意力。保持每个单词特征的细粒度意思。

相关推荐
海绵宝宝de派小星4 小时前
特征工程技巧与最佳实践
ai
CoderJia程序员甲5 小时前
GitHub 热榜项目 - 日榜(2026-01-22)
ai·开源·大模型·github·ai教程
Tom·Ge7 小时前
Claude Code 和 Cursor 有何异同
ai
哥布林学者10 小时前
吴恩达深度学习课程五:自然语言处理 第二周:词嵌入(六)情绪分类和词嵌入除偏
深度学习·ai
CoderJia程序员甲12 小时前
GitHub 热榜项目 - 日榜(2026-01-24)
git·ai·开源·llm·github
玉梅小洋13 小时前
Unity Muse 完整使用文档:Sprite+Texture专项
unity·ai·游戏引擎
带刺的坐椅13 小时前
Claude Code Agent Skills vs. Solon AI Skills:从工具增强到框架规范的深度对齐
java·ai·agent·claude·solon·mcp·skills
组合缺一13 小时前
MCP 进化:让静态 Tool 进化为具备“上下文感知”的远程 Skills
java·ai·llm·agent·mcp·skills
爱跑步的程序员~14 小时前
大模型prompt工程指南
ai·prompt
DS随心转APP14 小时前
豆包排版乱码怎么办?
人工智能·ai·chatgpt·deepseek·ds随心转