【DeepSeek-OCR系列第一篇】Language Modelling with Pixels【ICLR23】

ICLR 2023|PIXEL:当语言模型不再用词,而是"看"懂文字

📚 论文信息

  • 标题Language Modelling with Pixels

  • 作者:Phillip Rust, Jonas F. Lotz, Emanuele Bugliarello, Elizabeth Salesky, Miryam de Lhoneux, Desmond Elliott

  • 单位:University of Copenhagen、Johns Hopkins University、KU Leuven、Pioneer Centre for AI

  • 会议:ICLR 2023

  • 🔗 GitHub 项目


一、问题背景:词表瓶颈

当前主流语言模型(如 BERT、GPT 系列)普遍依赖 固定词表

这种方法在扩展到多语言、多脚本时面临三大核心问题:

  1. 🧱 覆盖受限:固定词表难以覆盖上千种语言和文字;

  2. 💻 计算昂贵:大词表导致 embedding 层和 softmax 输出层规模巨大;

  3. ⚠️ 鲁棒性差:遇到冷门语言、拼写变体、代码混合时表现显著下降。

这就是业界长期存在的 "词表瓶颈" 问题,也是多语言模型难以进一步扩展的核心障碍。


二、创新方法:PIXEL------像素级语言建模

ICLR 2023 的论文提出了 PIXEL ,一种完全不依赖词表的语言模型。

核心思想:把文本变成图像,然后用视觉 Transformer 来理解它。

PIXEL 的技术路径:

  1. 🖼️ 文本渲染:将文字绘制在固定大小的 RGB 图像上;

  2. 🧠 ViT 编码:使用 Vision Transformer 处理未遮挡的图像 patch;

  3. 🧩 像素重建:采用 MAE 方式重建被遮挡的区域完成预训练;

  4. 🪄 任务迁移:替换解码器为任务头(分类/问答等),直接应用于 NLP 任务。

📌 PIXEL 不再需要 tokenizer,也不存在 OOV(未登录词)问题。

任何能排版的语言,理论上都能直接建模。


三、实验验证:跨语言 + 抗噪声 + 可迁移

研究团队在 32 种语言、14 种文字脚本 上验证了 PIXEL,并与同规模 BERT 直接对比(预训练语料相同,仅英语)。

1. 多语言与跨脚本能力

  • 在阿拉伯语、中文、日文、科普特语等非拉丁文字上,PIXEL明显优于 BERT;

  • Coptic 语言 POS 准确率:BERT 仅 26.5%,PIXEL 高达 96%;

  • 对未见过的脚本也能有效迁移,表现稳定。

2. 鲁棒性与混合语言处理

  • 面对字符级攻击、相似字符替换等噪声,PIXEL 几乎不受影响;

  • 在代码混合(code-switching)场景下,PIXEL 表现优于或接近 mBERT。

3. 语义任务表现

  • 在英文 GLUE 任务上,PIXEL 虽略低于 BERT,但依然取得了良好表现;

  • 证明像素建模不仅能理解字符,还能捕捉语义。


四、优势与局限

优势

  • 不依赖词表,天然支持多语言;

  • 跨脚本迁移能力强;

  • 抗噪声、抗拼写变体、抗混合语言;

  • 兼容多种 NLP 任务(POS、NER、QA、NLI 等)。

⚠️ 局限

  • 对主流拉丁文字(如英文)语义任务略逊 BERT;

  • 模型语义建模能力尚需加强;

  • 训练推理成本相对较高。


五、研究意义与未来方向

PIXEL 并非对 BERT 的简单替代,而是对 "语言建模基础假设" 的重新思考。

它绕过词表,直接用视觉方式表示语言,为大规模多语言、多脚本建模提供了新路径。

未来研究方向:

  • 🌍 多语言预训练,进一步提升跨语义迁移能力;

  • 🤝 融合视觉-语言模型(如 CLIP、SAM);

  • 🧠 优化训练机制,提升语义理解深度;

  • 💬 应用于低资源语言、OCR-NLP 融合场景。


📝 一句话总结:PIXEL 让模型"看懂"文字,为突破词表瓶颈、支持全球语言建模,提供了更通用的解决方案。

相关推荐
HackTorjan2 小时前
2026年5月29日:全球首个通用人工智能操作系统正式发布,开启人机协同新纪元
人工智能
刘大猫.3 小时前
智造短剧新引擎:火山引擎上线「火山剧创 1.0」,制作效率提升 80%
人工智能·ai·chatgpt·机器人·大模型·火山引擎·短剧新引擎
红尘散仙3 小时前
我把终端小说阅读器接上了 AI Agent:TRNovel 现在能用 skill 生成书源了
人工智能·后端·rust
雅菲奥朗3 小时前
企业级 AI 自动化|OpenClaw 龙虾实战与认证
运维·人工智能·自动化·openclaw
HIT_Weston3 小时前
99、【Agent】【OpenCode】task 工具提示词(Slash command)(一)
人工智能·agent·opencode
25 Hz3 小时前
Mind 爱好者时空表征刊 第24期 | 时间结构学习、空间对时间表征的补偿、事件内部的时间扭曲……
人工智能
心中有国也有家3 小时前
GE图引擎深度解析——CANN的计算图优化与执行引擎
人工智能·pytorch·python·学习·numpy
海兰4 小时前
【文字三国志:第一篇】天命重构,大语言模型(LLM)动态生成文言风格的叙事文本的文字游戏
人工智能·游戏·语言模型
cxr8284 小时前
高分子复合材料 AI 逆向设计合——验证闭环、决策优化与中试放大
人工智能·材料逆向设计合成
litble4 小时前
如何速成LLM以伪装成一个AI研究者(6)——LoRA,Adapter,P-tuning,量化,QLoRA
人工智能·lora·量化·peft·qlora·高效微调