deepseek-ocr

明知道的博客8 天前
python·ocr·deepseek·deepseek-ocr
解决WSL环境下DeepSeek-OCR运行时内存不足问题在WSL环境中运行DeepSeek-OCR时出现以下错误:这是由于WSL默认分配的内存不足以加载大型模型导致的。
码二哥11 天前
ocr·fastapi·vllm·豆包·deepseek-ocr
借助豆包将vllm推理deepseek-ocr改成web服务访问本次的试验环境:查看远程服务器上cuda版本号已经安装了deepseek-ocr, vllm本次的需求是,希望将通过vllm推理deepseek-ocr的方式,改成web方式。 提高效率。 免的每次请求,都得重新加载deepseek-ocr模型。
大模型实验室Lab4AI15 天前
人工智能·ocr·deepseek-ocr
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理当“8000行代码手搓ChatGPT”的热度还未褪去,大模型领域又迎来新惊喜——DeepSeek团队于10月20日开源的 DeepSeek-OCR,以“上下文光学压缩”为核心突破,重新定义了OCR(光学字符识别)的效率边界。这款仅30亿参数量的模型,不仅能以100个视觉token超越传统模型256个token的性能,更在单张A100-40G显卡上实现每日20万页文档处理能力,为长文本压缩与大模型效率优化提供了全新思路。
探模之翼18 天前
大模型·ocr·deepseek-ocr
深度解读 DeepSeek-OCR 论文:通过视觉模态实现高效文本压缩DeepSeek-OCR 论文:DeepSeek-OCR: Contexts Optical Compression(上下文光学压缩)
Lab4AI大模型实验室19 天前
人工智能·github·deepseek-ocr
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理当“8000行代码手搓ChatGPT”的热度还未褪去,大模型领域又迎来新惊喜——DeepSeek团队于10月20日开源的 DeepSeek-OCR,以“上下文光学压缩”为核心突破,重新定义了OCR(光学字符识别)的效率边界。这款仅30亿参数量的模型,不仅能以100个视觉token超越传统模型256个token的性能,更在单张A100-40G显卡上实现每日20万页文档处理能力,为长文本压缩与大模型效率优化提供了全新思路。
pursue.dreams19 天前
ocr·deepseek-ocr
DeepSeek-OCR全面解析:技术原理、性能优势与实战指南2025年10月20日,DeepSeek AI团队开源了一款革命性的OCR模型——DeepSeek-OCR,迅速在AI领域引起轰动。这款模型以"上下文光学压缩"为核心创新点,重新定义了文档识别技术的边界。它不仅在识别精度上达到了新高度,更在处理效率和资源占用方面实现了突破,为开发者和企业用户带来了前所未有的OCR体验。
武子康24 天前
人工智能·深度学习·机器学习·ai·ocr·deepseek·deepseek-ocr
AI研究-119 DeepSeek-OCR PyTorch FlashAttn 2.7.3 推理与部署 模型规模与资源详细分析要使用DeepSeek-OCR,需准备支持GPU的Python环境。根据官方说明,模型已在Python 3.12、PyTorch 2.6.0、Transformers 4.46.3下测试。
武子康1 个月前
人工智能·深度学习·机器学习·ai·ocr·deepseek·deepseek-ocr
AI研究-121 DeepSeek-OCR 研究路线:无限上下文、跨模态抽取、未来创意点、项目创意点DeepSeek-OCR提出的上下文光学压缩为扩展LLM记忆提供了新思路。未来研究可以基于此探索“无限上下文”模型:模拟人类记忆,将旧对话压缩成模糊图像存储,新的信息用清晰图像保留,模型动态决定何时解压细读。这涉及构建分层记忆模块、研究压缩级别与任务性能的关系,可能催生出类人记忆的对话系统架构。
武子康1 个月前
人工智能·深度学习·机器学习·ai·ocr·deepseek·deepseek-ocr
AI研究-120 DeepSeek-OCR 从 0 到 1:上手路线、实战要点如果读者有一定深度学习或OCR领域背景,想学习并掌握DeepSeek-OCR,以下是建议的路径:Medium: DeepSeek-OCR is here
用什么都重名1 个月前
人工智能·ocr·deepseek-ocr
DeepSeek-OCR 深度解析DeepSeek团队最近开源的DeepSeek-OCR模型,给出了一个全新解法:把文本“画”成图像,用视觉Token实现高效压缩。原本需要1000个文本Token存储的内容,现在100个视觉Token就能搞定,还能保持97%的OCR精度。这种“光学压缩”思路,不仅让长文本处理效率飙升,更给大模型的“记忆机制”研究打开了新窗口。
CS创新实验室1 个月前
ai·大模型·llm·ocr·deepseek-ocr
【译文】DeepSeek-OCR:上下文光学压缩来源:https://arxiv.org/pdf/2510.18234v1侯浩然、孙耀峰、李宇坤DeepSeek-AI
远上寒山1 个月前
ocr·vllm·文档解析·deepseek·deepseek-ocr·视觉-文本压缩
DeepSeek-OCR 论文精读与实践:用“光学上下文压缩”把长文本变成图片,再由 VLM 高效还原关键词:DeepSeek-OCR、视觉-文本压缩、长上下文、MoE、OCR、文档解析、vLLM、Transformers
之墨_1 个月前
大模型·ocr·deepseek-ocr
【LLM】用 FastAPI 搭建「OpenAI 兼容」DeepSeek-OCR 服务 + 简洁WebUI目标:本地部署 DeepSeek-OCR,暴露 /v1/chat/completions(OpenAI 协议兼容),并提供一个静态网页上传图片+输入提示直接获取结果。
机器学习是魔鬼1 个月前
ocr·矩池云·deepseek-ocr
在矩池云上如何使用DeepSeek-OCRDeepSeek-OCR 是一个专注于光学字符识别(OCR)的深度学习模型,旨在从图像或文档中准确提取文本信息。该模型结合了计算机视觉和自然语言处理技术,能够处理多种语言、复杂布局以及低质量图像中的文本识别任务。
算家云1 个月前
人工智能·计算机视觉·算家云·模型部署教程·镜像社区·deepseek-ocr
DeepSeek-OCR本地部署教程:DeepSeek突破性开创上下文光学压缩,10倍效率重构文本处理范式DeepSeek-OCR 是深度求索(DeepSeek)于 2025 年 10 月 20 日开源的一款革命性 OCR 模型,其核心创新在于提出 上下文光学压缩 (Contexts Optical Compression)技术,通过视觉模态实现文本信息的高效压缩与解压。该模型以 3B 参数量实现了 SOTA 级性能,按照官方的说法,单张 A100-40G 显卡日处理能力超 20 万页数据,这为长文本处理和大模型优化提供了全新范式。
侃侃_天下1 个月前
ocr·deepseek-ocr
关于 DeepSeek-OCR 的猜想cpu与gpu交互的token设计不合理,之前一个字符是一个token,DeepSeek-OCR是一张图像,我认为应该设计成 压缩的json格式,或者 JSON 可以换成 python中的字典,json和 字典可以嵌套,上一次的回复可以嵌入到下一次的问题中再次提交给网络,本身自带上下文属性
我是有底线的