DeepSeek-Math 学习笔记

1. 提示词

复制代码
是否可以请您参考PyTorch的文档格式和文档风格,使用Markdown格式为 `next_obs` 变量编写一段相应的文档说明呢?

2. Evaluation using 2080Ti

bash 复制代码
python submit_eval_jobs.py --n-gpus 1

3. Scripts

2.1 Infer/run_cot_eval.py

2.1.1 Arguments

Required Arguments
Argument Type Description
--answer_extraction_fn str Function name for extracting answers from model outputs
--eval_fn str Function name for evaluating predictions
Model Configuration
Argument Type Default Description
--model_name_or_path str None Path or HuggingFace model identifier
--tokenizer_name_or_path str None Tokenizer path (defaults to model path)
--load_in_8bit bool False Load model in 8-bit quantization mode
--load_in_half bool False Load model in half precision (float16)
--gptq bool False Use GPTQ 4-bit quantization
--use_vllm bool False Use vLLM for inference acceleration
Data Configuration
Argument Type Default Description
--data_dir str "data/mgsm" Directory containing test data
--max_num_examples int None Maximum number of examples to evaluate
--infer_train_set bool False Evaluate on training set instead of test set
--prompt_format str "sft" Prompt format: 'sft' or 'few_shot'
--few_shot_prompt str None Few-shot prompt class name
Inference Configuration
Argument Type Default Description
--eval_batch_size int 1 Batch size for evaluation
--temperature float 0.0 Sampling temperature
--max_tokens int 1024 Maximum tokens to generate
--gpus str None Comma-separated GPU IDs
Parallel Processing
Argument Type Default Description
--n_subsets int 1 Number of data subsets for parallel processing
--subset_id int 0 Current subset ID for this process
--n_repeat_sampling int 1 Number of repeated samplings
--repeat_id_start int 0 Starting repeat ID
Output Configuration
Argument Type Default Description
--save_dir str "results/mgsm" Directory to save evaluation results
--complete_partial_output bool False Complete partial model outputs
相关推荐
镰刀韭菜5 天前
【大语言模型】大模型后训练入门指南
人工智能·自然语言处理·大语言模型·强化学习·ppo·后训练·grpo
温柔哥`25 天前
AgentThink:一种在自动驾驶视觉语言模型中用于工具增强链式思维推理的统一框架
语言模型·自动驾驶·agent·工具调用·grpo·强化微调·tool call
陈敬雷-充电了么-CEO兼CTO2 个月前
强化学习三巨头PK:PPO、GRPO、DPO谁是大模型训练的「王炸」?
人工智能·python·机器学习·chatgpt·aigc·ppo·grpo
木亦汐丫4 个月前
【TTS】基于GRPO的流匹配文本到语音改进:F5R-TTS
强化学习·tts·grpo·wer·sim·文本到语音·nar
温柔哥`4 个月前
Vad-R1:通过从感知到认知的思维链进行视频异常推理
vad·var·视频异常检测·grpo·视频异常推理·推理数据集·强化微调
winner88818 个月前
DeepSeek-V3 论文解读:大语言模型领域的创新先锋与性能强者
人工智能·语言模型·自然语言处理·性能优化·deepseek·grpo·深度求索
又见阿郎8 个月前
聊聊GRPO算法——从Open R1来看如何训练DeepSeek R1模型
ai·强化学习·deepseek·grpo