DeepSeek-Prover-V2-671B 简介、下载、体验、微调、数据集:专为数学定理自动证明设计的超大垂直领域语言模型(在线体验地址)

DeepSeek-Prover-V2-671B 最新发布:专为数学定理自动证明设计的超大语言模型

体验地址Hugging Face 在线体验
推荐入口Novita 平台直达链接(含邀请码)


一、模型简介

DeepSeek-Prover-V2-671B 是 DeepSeek 团队于 2025 年4月30日发布的开源超大垂直领域语言模型,专为在 Lean 4 语言中进行数学定理的形式化证明(formal theorem proving)而打造。该模型是 DeepSeek-V3 架构的继承者,采用冷启动推理数据合成与强化学习相结合的训练策略,成功将非形式化数学推理与形式化证明能力融合为一体。


二、技术亮点概览

1. 冷启动推理数据合成

DeepSeek-Prover-V2 通过一个递归推理流程合成"冷启动数据":

  • 使用 DeepSeek-V3 拆解复杂定理为一系列子目标(subgoals);
  • 利用较小的 7B 规模模型生成每个子目标的 Lean 4 形式化证明;
  • 将这些步骤组合为完整证明,并结合 DeepSeek-V3 的思路链(chain-of-thought)形成训练样本。

2. 强化学习提升推理泛化

在冷启动数据的基础上,模型进一步经过强化学习微调:

  • 通过难题的子目标解构,组合完成的定理证明;
  • 使用"对错"二分类反馈(binary correct/incorrect)作为强化信号;
  • 大幅提升模型处理复杂逻辑结构的能力。

三、权威评测成果

数据集 表现
MiniF2F-test 88.9% 通过率
PutnamBench 解出 49/658 道高难度数学题

这些结果表明 DeepSeek-Prover-V2-671B 在神经网络定理证明领域中达到了当前最先进水平。


四、ProverBench:覆盖高中到大学的数学题集

团队同步发布了专用评测数据集 ProverBench,共计 325 道题,题目来源涵盖:

  • AIME 24/25 竞赛题(15题)
  • 初等代数、数论、线性代数、微积分等主流教材题(310题)
数学领域 题量
数论 40
微积分 90
线性代数 50
高中竞赛题 15
抽象代数、实分析等 若干

五、模型与数据开放获取

模型名称 下载地址
DeepSeek-Prover-V2-7B Hugging Face
DeepSeek-Prover-V2-671B Hugging Face
数据集名称 下载地址
ProverBench Hugging Face

六、快速使用示例(基于 Transformers)

模型可直接接入 Hugging Face Transformers 框架进行使用,以下为 Lean 4 数学题自动证明示例(使用 7B 或 671B 均可):

python 复制代码
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
torch.manual_seed(30)

model_id = "DeepSeek-Prover-V2-7B"  # or DeepSeek-Prover-V2-671B
tokenizer = AutoTokenizer.from_pretrained(model_id)

formal_statement = """
import Mathlib
import Aesop

set_option maxHeartbeats 0

open BigOperators Real Nat Topology Rat

/-- What is the positive difference between $120\%$ of 30 and $130\%$ of 20? Show that it is 10.-/
theorem mathd_algebra_10 : abs ((120 : ℝ) / 100 * 30 - 130 / 100 * 20) = 10 := by
  sorry
""".strip()

prompt = """
Complete the following Lean 4 code:

```lean4
{}
/```

Before producing the Lean 4 code to formally prove the given theorem, provide a detailed proof plan outlining the main proof steps and strategies.
The plan should highlight key ideas, intermediate lemmas, and proof structures that will guide the construction of the final formal proof.
""".strip()

chat = [
  {"role": "user", "content": prompt.format(formal_statement)},
]

model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", torch_dtype=torch.bfloat16, trust_remote_code=True)
inputs = tokenizer.apply_chat_template(chat, tokenize=True, add_generation_prompt=True, return_tensors="pt").to(model.device)

import time
start = time.time()
outputs = model.generate(inputs, max_new_tokens=8192)
print(tokenizer.batch_decode(outputs))
print(time.time() - start)

七、总结

DeepSeek-Prover-V2-671B 是首个同时在 数学语言理解、链式推理与形式化构造 三方面取得全面突破的开源大模型。其精度、上下文理解能力和复杂任务适配性,已然跻身世界顶级 AI 推理系统之列。

推荐用途:大学级数学自动化解题系统、AI 辅助证明系统、Lean 4 数学研究平台、数学教育工具开发等。


相关推荐
go546315846522 分钟前
基于深度学习的食管癌右喉返神经旁淋巴结预测系统研究
图像处理·人工智能·深度学习·神经网络·算法
Blossom.11823 分钟前
基于深度学习的图像分类:使用Capsule Networks实现高效分类
人工智能·python·深度学习·神经网络·机器学习·分类·数据挖掘
想变成树袋熊1 小时前
【自用】NLP算法面经(6)
人工智能·算法·自然语言处理
格林威1 小时前
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现沙滩小人检测识别(C#代码UI界面版)
人工智能·深度学习·数码相机·yolo·计算机视觉
checkcheckck2 小时前
spring ai 适配 流式回答、mcp、milvus向量数据库、rag、聊天会话记忆
人工智能
Microvision维视智造2 小时前
从“人工眼”到‘智能眼’:EZ-Vision视觉系统如何重构生产线视觉检测精度?
图像处理·人工智能·重构·视觉检测
我不是大佬zvj2 小时前
解决使用vscode连接服务器出现“正在下载 VS Code 服务器...”
语言模型
巫婆理发2222 小时前
神经网络(多层感知机)(第二课第二周)
人工智能·深度学习·神经网络
lxmyzzs2 小时前
【打怪升级 - 03】YOLO11/YOLO12/YOLOv10/YOLOv8 完全指南:从理论到代码实战,新手入门必看教程
人工智能·神经网络·yolo·目标检测·计算机视觉
SEO_juper2 小时前
企业级 AI 工具选型报告:9 个技术平台的 ROI 对比与部署策略
人工智能·搜索引擎·百度·llm·工具·geo·数字营销