多模态模型文本预处理方式

句子级别

句子级别的表征编码一整个句子到一个特征中。如果一个句子有多个短语,提取这些短语丢弃其他的单词。

缺点:这种方式会丢失句子中细粒度的信息。

单词级别

将句子中的类别提取出来,结合成一个句子。

缺点:会在类别之间建立不必要的联系,尤其多个类别以随机顺序排列。

子句级别

将句子中的类别提取出来,结合成一个句子,并使用注意力掩码遮蔽掉不相关类别的注意力。保持每个单词特征的细粒度意思。

相关推荐
wenzhangli74 小时前
小模型在物联网行业:开启智能物联新时代
物联网·ai·智能家居
豌豆花下猫7 小时前
Python 潮流周刊#83:uv 的使用技巧(摘要)
后端·python·ai
baiyu3310 小时前
VSCode使用deepseek-v3
ai·deepseek
爱喝白开水a20 小时前
Speckly:基于Speckle文档的RAG智能问答机器人
ai·大模型·llm·智能问答·大模型实战·大模型训练·speckly
飞的肖1 天前
在 Java 项目中集成和使用 dl4j 实现通过扫描图片识别快递单信息
java·ai·图像识别·dl4j
Tester_孙大壮1 天前
网络爬虫科普:原理、类型、策略与常用工具
ai
视觉&物联智能2 天前
【杂谈】-AI搜索引擎如何改变传统SEO及其在内容营销中的作用
人工智能·搜索引擎·ai·aigc·seo
herogus丶2 天前
【Spring AI】Spring AI Alibaba的简单使用
java·人工智能·spring·ai
zaim12 天前
计算机的错误计算(一百九十二)
人工智能·ai·大模型·llm·错误·误差/error·余割/csc