多模态模型文本预处理方式

句子级别

句子级别的表征编码一整个句子到一个特征中。如果一个句子有多个短语,提取这些短语丢弃其他的单词。

缺点:这种方式会丢失句子中细粒度的信息。

单词级别

将句子中的类别提取出来,结合成一个句子。

缺点:会在类别之间建立不必要的联系,尤其多个类别以随机顺序排列。

子句级别

将句子中的类别提取出来,结合成一个句子,并使用注意力掩码遮蔽掉不相关类别的注意力。保持每个单词特征的细粒度意思。

相关推荐
念风零壹7 小时前
AI 时代的前端技术:从系统编程到 JavaScript/TypeScript
前端·ai
懒虫虫~8 小时前
利用自定义Agent-Skill实现项目JDK17升级
ai·skill
AI架构全栈开发实战笔记8 小时前
Eureka 在大数据环境中的性能优化技巧
大数据·ai·eureka·性能优化
大厂资深架构师8 小时前
Spring Cloud Eureka在后端系统中的服务剔除策略
spring·spring cloud·ai·eureka
AI架构全栈开发实战笔记8 小时前
Eureka 对大数据领域服务依赖关系的梳理
大数据·ai·云原生·eureka
阿杰学AI9 小时前
AI核心知识91——大语言模型之 Transformer 架构(简洁且通俗易懂版)
人工智能·深度学习·ai·语言模型·自然语言处理·aigc·transformer
shengnan_wsn12 小时前
【一】【ai基础】【大模型和智能体初识】
ai
nimadan1212 小时前
**AI仿真人剧制作工具2025推荐,解锁沉浸式内容创作新范
ai
阿沐的硅基世界14 小时前
OpenClaw记忆层详解
ai
___波子 Pro Max.15 小时前
AI与AGI的区别及未来展望
ai·agi