多模态模型文本预处理方式

句子级别

句子级别的表征编码一整个句子到一个特征中。如果一个句子有多个短语,提取这些短语丢弃其他的单词。

缺点:这种方式会丢失句子中细粒度的信息。

单词级别

将句子中的类别提取出来,结合成一个句子。

缺点:会在类别之间建立不必要的联系,尤其多个类别以随机顺序排列。

子句级别

将句子中的类别提取出来,结合成一个句子,并使用注意力掩码遮蔽掉不相关类别的注意力。保持每个单词特征的细粒度意思。

相关推荐
编写人生8 小时前
如何更优雅地提供 MCP Resources
ai
摸鱼同学8 小时前
14-oh-my-claude / oh-my-claudecode:多 Agent 编排框架
ai·agent·claude·skill·omc
找藉口是失败者的习惯8 小时前
LLM 调用 MCP 工具的实现原理-源码解析
ai
Dust-Chasing10 小时前
Claude Code源码剖析 - Claude Code 上下文压缩机制
人工智能·python·ai
zhangpba11 小时前
IntelliJ IDEA 集成通义灵码
ai·idea
身如柳絮随风扬11 小时前
LangGraph State记忆机制深度解析:短期与长期记忆的实现原理与实战
ai
霸道流氓气质14 小时前
Kiro 多工程协作与上下文引用技巧
ai
小七-七牛开发者15 小时前
AI Agent 的 4 个工程关键词:Prompt、Context、Loop、Harness 到底是什么?
ai·大模型·agent·token·context·loop·codex·harness
yychen_java16 小时前
当算法成为武器:AI泛滥时代的多维危机透视与治理路径
网络·人工智能·ai
Samooyou16 小时前
大模型微调(Fine Tuning)
人工智能·python·ai·语言模型