多模态模型文本预处理方式

句子级别

句子级别的表征编码一整个句子到一个特征中。如果一个句子有多个短语,提取这些短语丢弃其他的单词。

缺点:这种方式会丢失句子中细粒度的信息。

单词级别

将句子中的类别提取出来,结合成一个句子。

缺点:会在类别之间建立不必要的联系,尤其多个类别以随机顺序排列。

子句级别

将句子中的类别提取出来,结合成一个句子,并使用注意力掩码遮蔽掉不相关类别的注意力。保持每个单词特征的细粒度意思。

相关推荐
冷眼看人间恩怨4 小时前
【话题讨论】AI赋能电商:创新应用与销售效率的双轮驱动
人工智能·ai·电商
Elastic 中国社区官方博客5 小时前
Elasticsearch 8.16:适用于生产的混合对话搜索和创新的向量数据量化,其性能优于乘积量化 (PQ)
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
智匠MindCraft Al7 小时前
GPT o1 模型使用及API调用
人工智能·gpt·ai·语言模型·chatgpt
ApiHug9 小时前
ApiSmart-QWen2.5 coder vs GPT-4o 那个更强? ApiSmart 测评
java·人工智能·ai·llm·通义千问·apihug·apismart
Elastic 中国社区官方博客11 小时前
Elasticsearch 和 Kibana 8.16:Kibana 获得上下文和 BBQ 速度并节省开支!
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
袁庭新18 小时前
安装luasocket模块时提示“sudo: luarocks:找不到命令“问题,该如何解决?
java·人工智能·ai·aigc·lua·luarocks·袁庭新
阿牛牛阿1 天前
多模态大模型(1)--CLIP
算法·机器学习·ai·aigc
Elastic 中国社区官方博客1 天前
Lucene 和 Elasticsearch 中更好的二进制量化 (BBQ)
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·lucene
程序猿锦鲤1 天前
Ollama—87.4k star 的开源大模型服务框架!!
学习·ai·开源软件·工具
姚家湾1 天前
由播客转向个人定制的音频频道(1)平台搭建
javascript·ai·hls·ardunio·播客