多模态模型文本预处理方式

句子级别

句子级别的表征编码一整个句子到一个特征中。如果一个句子有多个短语,提取这些短语丢弃其他的单词。

缺点:这种方式会丢失句子中细粒度的信息。

单词级别

将句子中的类别提取出来,结合成一个句子。

缺点:会在类别之间建立不必要的联系,尤其多个类别以随机顺序排列。

子句级别

将句子中的类别提取出来,结合成一个句子,并使用注意力掩码遮蔽掉不相关类别的注意力。保持每个单词特征的细粒度意思。

相关推荐
csdn_aspnet21 分钟前
2026年IT行业技术发展的前瞻性见解
人工智能·ai
五度易链-区域产业数字化管理平台23 分钟前
技术实战 | 五度易链一站式大数据治理体系架构详解
大数据·ai
Elastic 中国社区官方博客39 分钟前
Jina Reranker v3:用于 SOTA 多语言检索 的 0.6B 列表式重排序器
大数据·人工智能·elasticsearch·搜索引擎·ai·jina
huahailing10241 小时前
【保姆级教程】PaddleOCR v4 Slim 基于 Docker-Compose 一键部署与使用
ai·ocr模型
码农小白猿2 小时前
航空制造物料证书报告审核革新:IACheck提升数据一致性与合规性精准筛查
运维·人工智能·ai·制造·iacheck
CodeCaptain2 小时前
通过huggingface的hf download下载的Qwen模型,如何使用用Docker 启动 vLLM 服务
docker·ai·vllm
飞睿科技2 小时前
深入解读乐鑫ESP32-S3,如何以单芯片搞定AIoT终端设备的智能交互
嵌入式硬件·ai·esp32·智能家居·乐鑫科技·ai交互
跨境日记的老周2 小时前
GEO优化——构建品牌在AI搜索时代的认知新基建
ai
FIT2CLOUD飞致云3 小时前
MCP服务智能化与数据分析能力扩展,SQLBot开源智能问数系统v1.5.0版本发布
ai·数据分析·开源·智能问数·sqlbot
m0_603888713 小时前
RIMRULE Improving Tool-Using Language Agents via MDL-Guided Rule Learning
人工智能·ai·论文速览