deepseek-ocr

五点钟科技8 小时前
人工智能·llm·ocr·论文·大语言模型·deepseek·deepseek-ocr
Deepseek-OCR:《DeepSeek-OCR: Contexts Optical Compression》 论文要点解读最近幻方又在搞事情了,一篇关于通过视觉进行语言理解的论文火遍圈子。迫不及待看了看论文,发现他们真是一支十分聪明又十分善于思考的团队,不得不佩服!
秋氘渔13 天前
ocr·ollama·deepseek-ocr
使用Ollama部署DeepSeek-OCR模型:从零开始的完整指南目录一、什么是Ollama和DeepSeek-OCR1.1 Ollama简介1.2 DeepSeek-OCR简介
weixin_4624462314 天前
ocr·deepseek-ocr
DeepSeek-OCR:下一代智能文档识别与转换技术详解(复杂表格精准解析)DeepSeek-OCR是一个基于深度学习的先进文档识别系统,能够准确识别文本内容并保持原文档的格式结构。本文将详细介绍DeepSeek-OCR的完整部署过程、代码实现、使用方法和最佳实践,为开发者提供一站式的技术参考。
真·skysys1 个月前
ocr·多模态·deepseek·上下文工程·deepseek-ocr·上下文压缩·上下文光学压缩
【技术报告解读】DeepSeek-OCR: Contexts Optical Compression我们提出了 DeepSeek-OCR,作为通过光学二维映射压缩长上下文可行性的初步探索。DeepSeek-OCR 由两个组件构成:DeepEncoder 和作为解码器的 DeepSeek3B-MoE-A570M。具体而言,DeepEncoder 作为核心引擎,旨在在高分辨率输入下保持低激活值,同时实现高压缩率,以确保视觉 token 数量可控且高效。实验表明,当文本 token 数量不超过视觉 token 数量的 10 倍(即压缩率小于 10×)时,模型可实现 97% 的 OCR 解码精度。即使在 20×
wxl7812272 个月前
docker·容器·deepseek-ocr
零踩坑部署DeepSeek-OCR API:基于Docker+CUDA 11.8的完整指南DeepSeek-OCR凭借高精度的字符识别能力和GPU加速特性,成为OCR领域的热门工具,但环境配置(尤其是Unsloth库的版本适配)常让开发者踩坑。本文将基于优化后的Dockerfile,从环境适配、镜像构建到容器运行,手把手教你完成DeepSeek-OCR API的容器化部署,全程规避版本兼容、网络加速、GPU调用等核心问题。
Together_CZ2 个月前
光学·compression·optical·deepseek-ocr·contexts·光学压缩上下文·压缩上下文
DeepSeek-OCR: Contexts Optical Compression——光学压缩上下文这篇文章的核心内容是关于 DeepSeek-OCR,这是一个用于高效压缩和解码长文本内容的视觉语言模型(VLM)。以下是文章的主要研究内容和贡献的总结:
明知道的博客2 个月前
python·ocr·deepseek·deepseek-ocr
解决WSL环境下DeepSeek-OCR运行时内存不足问题在WSL环境中运行DeepSeek-OCR时出现以下错误:这是由于WSL默认分配的内存不足以加载大型模型导致的。
码二哥2 个月前
ocr·fastapi·vllm·豆包·deepseek-ocr
借助豆包将vllm推理deepseek-ocr改成web服务访问本次的试验环境:查看远程服务器上cuda版本号已经安装了deepseek-ocr, vllm本次的需求是,希望将通过vllm推理deepseek-ocr的方式,改成web方式。 提高效率。 免的每次请求,都得重新加载deepseek-ocr模型。
大模型实验室Lab4AI2 个月前
人工智能·ocr·deepseek-ocr
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理当“8000行代码手搓ChatGPT”的热度还未褪去,大模型领域又迎来新惊喜——DeepSeek团队于10月20日开源的 DeepSeek-OCR,以“上下文光学压缩”为核心突破,重新定义了OCR(光学字符识别)的效率边界。这款仅30亿参数量的模型,不仅能以100个视觉token超越传统模型256个token的性能,更在单张A100-40G显卡上实现每日20万页文档处理能力,为长文本压缩与大模型效率优化提供了全新思路。
探模之翼3 个月前
大模型·ocr·deepseek-ocr
深度解读 DeepSeek-OCR 论文:通过视觉模态实现高效文本压缩DeepSeek-OCR 论文:DeepSeek-OCR: Contexts Optical Compression(上下文光学压缩)
Lab4AI大模型实验室3 个月前
人工智能·github·deepseek-ocr
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理当“8000行代码手搓ChatGPT”的热度还未褪去,大模型领域又迎来新惊喜——DeepSeek团队于10月20日开源的 DeepSeek-OCR,以“上下文光学压缩”为核心突破,重新定义了OCR(光学字符识别)的效率边界。这款仅30亿参数量的模型,不仅能以100个视觉token超越传统模型256个token的性能,更在单张A100-40G显卡上实现每日20万页文档处理能力,为长文本压缩与大模型效率优化提供了全新思路。
pursue.dreams3 个月前
ocr·deepseek-ocr
DeepSeek-OCR全面解析:技术原理、性能优势与实战指南2025年10月20日,DeepSeek AI团队开源了一款革命性的OCR模型——DeepSeek-OCR,迅速在AI领域引起轰动。这款模型以"上下文光学压缩"为核心创新点,重新定义了文档识别技术的边界。它不仅在识别精度上达到了新高度,更在处理效率和资源占用方面实现了突破,为开发者和企业用户带来了前所未有的OCR体验。
武子康3 个月前
人工智能·深度学习·机器学习·ai·ocr·deepseek·deepseek-ocr
AI研究-119 DeepSeek-OCR PyTorch FlashAttn 2.7.3 推理与部署 模型规模与资源详细分析要使用DeepSeek-OCR,需准备支持GPU的Python环境。根据官方说明,模型已在Python 3.12、PyTorch 2.6.0、Transformers 4.46.3下测试。
武子康3 个月前
人工智能·深度学习·机器学习·ai·ocr·deepseek·deepseek-ocr
AI研究-121 DeepSeek-OCR 研究路线:无限上下文、跨模态抽取、未来创意点、项目创意点DeepSeek-OCR提出的上下文光学压缩为扩展LLM记忆提供了新思路。未来研究可以基于此探索“无限上下文”模型:模拟人类记忆,将旧对话压缩成模糊图像存储,新的信息用清晰图像保留,模型动态决定何时解压细读。这涉及构建分层记忆模块、研究压缩级别与任务性能的关系,可能催生出类人记忆的对话系统架构。
武子康3 个月前
人工智能·深度学习·机器学习·ai·ocr·deepseek·deepseek-ocr
AI研究-120 DeepSeek-OCR 从 0 到 1:上手路线、实战要点如果读者有一定深度学习或OCR领域背景,想学习并掌握DeepSeek-OCR,以下是建议的路径:Medium: DeepSeek-OCR is here
用什么都重名3 个月前
人工智能·ocr·deepseek-ocr
DeepSeek-OCR 深度解析DeepSeek团队最近开源的DeepSeek-OCR模型,给出了一个全新解法:把文本“画”成图像,用视觉Token实现高效压缩。原本需要1000个文本Token存储的内容,现在100个视觉Token就能搞定,还能保持97%的OCR精度。这种“光学压缩”思路,不仅让长文本处理效率飙升,更给大模型的“记忆机制”研究打开了新窗口。
CS创新实验室3 个月前
ai·大模型·llm·ocr·deepseek-ocr
【译文】DeepSeek-OCR:上下文光学压缩来源:https://arxiv.org/pdf/2510.18234v1侯浩然、孙耀峰、李宇坤DeepSeek-AI
远上寒山3 个月前
ocr·vllm·文档解析·deepseek·deepseek-ocr·视觉-文本压缩
DeepSeek-OCR 论文精读与实践:用“光学上下文压缩”把长文本变成图片,再由 VLM 高效还原关键词:DeepSeek-OCR、视觉-文本压缩、长上下文、MoE、OCR、文档解析、vLLM、Transformers
之墨_3 个月前
大模型·ocr·deepseek-ocr
【LLM】用 FastAPI 搭建「OpenAI 兼容」DeepSeek-OCR 服务 + 简洁WebUI目标:本地部署 DeepSeek-OCR,暴露 /v1/chat/completions(OpenAI 协议兼容),并提供一个静态网页上传图片+输入提示直接获取结果。
机器学习是魔鬼3 个月前
ocr·矩池云·deepseek-ocr
在矩池云上如何使用DeepSeek-OCRDeepSeek-OCR 是一个专注于光学字符识别(OCR)的深度学习模型,旨在从图像或文档中准确提取文本信息。该模型结合了计算机视觉和自然语言处理技术,能够处理多种语言、复杂布局以及低质量图像中的文本识别任务。