多模态模型文本预处理方式

句子级别

句子级别的表征编码一整个句子到一个特征中。如果一个句子有多个短语,提取这些短语丢弃其他的单词。

缺点:这种方式会丢失句子中细粒度的信息。

单词级别

将句子中的类别提取出来,结合成一个句子。

缺点:会在类别之间建立不必要的联系,尤其多个类别以随机顺序排列。

子句级别

将句子中的类别提取出来,结合成一个句子,并使用注意力掩码遮蔽掉不相关类别的注意力。保持每个单词特征的细粒度意思。

相关推荐
武子康12 小时前
AI-调查研究-96-具身智能 机器人场景测试全攻略:从极端环境到实时仿真
人工智能·深度学习·机器学习·ai·架构·系统架构·具身智能
Funny_AI_LAB20 小时前
OpenAI DevDay 2025:ChatGPT 进化为平台,开启 AI 应用新纪元
人工智能·ai·语言模型·chatgpt
Damon小智1 天前
玩转CodeX:CodeX安装教程(Windows+Linux+MacOS)
linux·windows·macos·ai·ai编程·codex·gpt-5
Elastic 中国社区官方博客1 天前
Elasticsearch:使用推理端点及语义搜索演示
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
realhuizhu1 天前
📚 技术人的阅读提效神器:多语言智能中文摘要生成指令
人工智能·ai·chatgpt·prompt·提示词·总结·deepseek·摘要
花生糖@1 天前
ST-Raptor:无需微调,准确率超越 GPT-4o 的半结构化表格问答新范式
ai·gpt-4·st-raptor
Damon小智1 天前
玩转ClaudeCode:通过Excel-MCP实现数据清洗并写入Excel
ai·excel·ai编程·claude·chrome devtools·rpa·claude code
拆房老料2 天前
Transformer推理优化全景:从模型架构到硬件底层的深度解析
深度学习·ai·自然语言处理·transformer
Learn Beyond Limits2 天前
Mean Normalization|均值归一化
人工智能·神经网络·算法·机器学习·均值算法·ai·吴恩达
CoderJia程序员甲2 天前
GitHub 热榜项目 - 日榜(2025-10-07)
ai·github·开源项目·github热榜