deepseek-ocr

武子康4 天前
人工智能·深度学习·机器学习·ai·ocr·deepseek·deepseek-ocr
AI研究-119 DeepSeek-OCR PyTorch FlashAttn 2.7.3 推理与部署 模型规模与资源详细分析要使用DeepSeek-OCR,需准备支持GPU的Python环境。根据官方说明,模型已在Python 3.12、PyTorch 2.6.0、Transformers 4.46.3下测试。
武子康6 天前
人工智能·深度学习·机器学习·ai·ocr·deepseek·deepseek-ocr
AI研究-121 DeepSeek-OCR 研究路线:无限上下文、跨模态抽取、未来创意点、项目创意点DeepSeek-OCR提出的上下文光学压缩为扩展LLM记忆提供了新思路。未来研究可以基于此探索“无限上下文”模型:模拟人类记忆,将旧对话压缩成模糊图像存储,新的信息用清晰图像保留,模型动态决定何时解压细读。这涉及构建分层记忆模块、研究压缩级别与任务性能的关系,可能催生出类人记忆的对话系统架构。
武子康7 天前
人工智能·深度学习·机器学习·ai·ocr·deepseek·deepseek-ocr
AI研究-120 DeepSeek-OCR 从 0 到 1:上手路线、实战要点如果读者有一定深度学习或OCR领域背景,想学习并掌握DeepSeek-OCR,以下是建议的路径:Medium: DeepSeek-OCR is here
用什么都重名8 天前
人工智能·ocr·deepseek-ocr
DeepSeek-OCR 深度解析DeepSeek团队最近开源的DeepSeek-OCR模型,给出了一个全新解法:把文本“画”成图像,用视觉Token实现高效压缩。原本需要1000个文本Token存储的内容,现在100个视觉Token就能搞定,还能保持97%的OCR精度。这种“光学压缩”思路,不仅让长文本处理效率飙升,更给大模型的“记忆机制”研究打开了新窗口。
CS创新实验室11 天前
ai·大模型·llm·ocr·deepseek-ocr
【译文】DeepSeek-OCR:上下文光学压缩来源:https://arxiv.org/pdf/2510.18234v1侯浩然、孙耀峰、李宇坤DeepSeek-AI
远上寒山12 天前
ocr·vllm·文档解析·deepseek·deepseek-ocr·视觉-文本压缩
DeepSeek-OCR 论文精读与实践:用“光学上下文压缩”把长文本变成图片,再由 VLM 高效还原关键词:DeepSeek-OCR、视觉-文本压缩、长上下文、MoE、OCR、文档解析、vLLM、Transformers
之墨_15 天前
大模型·ocr·deepseek-ocr
【LLM】用 FastAPI 搭建「OpenAI 兼容」DeepSeek-OCR 服务 + 简洁WebUI目标:本地部署 DeepSeek-OCR,暴露 /v1/chat/completions(OpenAI 协议兼容),并提供一个静态网页上传图片+输入提示直接获取结果。
机器学习是魔鬼15 天前
ocr·矩池云·deepseek-ocr
在矩池云上如何使用DeepSeek-OCRDeepSeek-OCR 是一个专注于光学字符识别(OCR)的深度学习模型,旨在从图像或文档中准确提取文本信息。该模型结合了计算机视觉和自然语言处理技术,能够处理多种语言、复杂布局以及低质量图像中的文本识别任务。
算家云18 天前
人工智能·计算机视觉·算家云·模型部署教程·镜像社区·deepseek-ocr
DeepSeek-OCR本地部署教程:DeepSeek突破性开创上下文光学压缩,10倍效率重构文本处理范式DeepSeek-OCR 是深度求索(DeepSeek)于 2025 年 10 月 20 日开源的一款革命性 OCR 模型,其核心创新在于提出 上下文光学压缩 (Contexts Optical Compression)技术,通过视觉模态实现文本信息的高效压缩与解压。该模型以 3B 参数量实现了 SOTA 级性能,按照官方的说法,单张 A100-40G 显卡日处理能力超 20 万页数据,这为长文本处理和大模型优化提供了全新范式。
侃侃_天下22 天前
ocr·deepseek-ocr
关于 DeepSeek-OCR 的猜想cpu与gpu交互的token设计不合理,之前一个字符是一个token,DeepSeek-OCR是一张图像,我认为应该设计成 压缩的json格式,或者 JSON 可以换成 python中的字典,json和 字典可以嵌套,上一次的回复可以嵌入到下一次的问题中再次提交给网络,本身自带上下文属性
我是有底线的