技术栈
视觉压缩
X.Cristiano
5 小时前
ocr
·
多模态
·
视觉压缩
DeepSeek-OCR和Glyph用视觉压缩思路对比
大语言模型(LLM)在处理长文档时,普遍面临“计算开销随文本长度平方级增长”的瓶颈。为破解这一难题,视觉压缩 成为了一条富有前景的新路径——不再单纯依赖文本Token,而是将文本转换为图像,利用视觉编码器进行高效压缩。
我是有底线的