ArXiv投稿详细操作指南 & AI论文写作最佳实践

📋 Part 1: arXiv投稿完整操作流程(2026最新版)
🔹 阶段一:投稿前准备
| 步骤 | 操作要点 | 注意事项 |
|---|---|---|
| 1. 注册账号 | 访问 arxiv.org/user/register 填写信息 | ✅ 强烈建议使用机构邮箱(.edu/.ac.cn等),可简化后续认证流程[[16]] |
| 2. 确认endorsement资格 | 新作者或新类别需获得领域内endorsement | ⚠️ 2026年新政:需同时满足①学术机构邮箱 + ②在目标领域已有arXiv论文所有权,否则需寻求个人endorsement[[35]] |
| 3. 准备源文件 | 推荐格式:(La)TeX / PDFLaTeX(首选),其次PDF | ❌ 不接受dvi/PS/扫描件;文件名仅允许 a-z A-Z 0-9 _ + - . , =[[16]] |
| 4. 整理图表文件 | LaTeX需EPS/PS格式;PDFLaTeX需PDF/JPG/PNG | ⚠️ 图文件名大小写敏感,LaTeX引用需完全匹配[[16]] |
🔹 阶段二:在线提交(Step-by-Step)
📍 登录用户中心 → 点击 "START NEW SUBMISSION"
-
📁 Prepare Files 页面
- 点击 Choose File 上传源文件(支持zip/tar.gz批量上传)
- 上传后检查文件列表,删除冗余文件(点击🗑️图标)
- 点击 Check Files 让系统自动分析
-
⚙️ 编译配置确认
- 确认系统自动检测的编译器(LaTeX / PDFLaTeX)
- 确认 Top-Level TeX 文件 (含
\documentclass的主文件) - 查看 Auto-detected Notes,处理建议删除的文件
-
🔍 编译预览
- 系统编译成功后,务必 Preview your PDF 检查:
- 参考文献是否正确渲染(搜索"??"确认无缺失引用)
- 图表位置是否正常
- 公式、特殊字符是否显示正常
- ❗ 常见编译错误排查[[16]]:
- 混用图形格式(PDFLaTeX不能用EPS)
- 文件名大小写不匹配
hyperref包冲突(忽略默认warning,关注具体error)- 缺失自定义sty文件
- 系统编译成功后,务必 Preview your PDF 检查:
-
📝 填写元数据(Metadata)
- 标题、摘要(用于检索和RSS推送,需精炼准确)
- 作者列表及affiliation(与源文件一致)
- 选择arXiv分类(如cs.LG、cs.AI、cs.CV等)[[61]]
- 添加MSC/ACM分类代码(可选但推荐)
- 填写期刊投稿状态(如"Submitted to NeurIPS 2026")
-
✅ 最终确认与提交
- 仔细核对所有信息
- 点击 Submit Article 完成提交
- 🕐 截止时间:美东时间14:00前提交,通常当晚20:00公开[[16]]
🔹 阶段三:提交后管理
| 场景 | 操作方式 |
|---|---|
| 提交后发现错误(未公开前) | 点击用户页面的 🔄 "Unsubmit" 图标撤回修改 |
| 需要更新内容 | 在原记录上创建新版本(v2, v3...),不要新建提交[[16]] |
| 论文被期刊录用 | 更新arXiv版本,添加"Accepted to XXX"标注,保留预印本链接[[25]] |
| 需要补充代码/数据 | 通过"ancillary files"功能上传(≤10MB)[[16]] |
⚠️ 2026年新政策提醒:自2026年2月起,arXiv要求所有新提交论文必须包含完整英文版本(可为原文+英文翻译),AI辅助翻译内容可接受但需保证质量[[2]][[7]]。
✍️ Part 2: AI/ML领域论文写作最佳实践
🔹 核心写作原则
🎯 好论文 = 清晰的问题定义 + 可复现的方法 + 有洞察的结论
| 原则 | 具体建议 | 来源参考 |
|---|---|---|
| ❶ 降低认知门槛 | 开篇明确说明研究问题的重要性,不要假设读者熟悉你的细分领域 | [[42]] |
| ❷ 突出洞察而非技术堆砌 | 强调"为什么这个方法有效",而非仅描述"用了什么技术" | [[42]] |
| ❸ 讲好故事线 | 论文应围绕1-3个具体、可验证的核心主张展开,形成逻辑闭环 | [[45]] |
| ❹ 提供可执行细节 | 算法需附伪代码/流程图;实验需说明超参、随机种子、硬件配置 | [[38]] |
🔹 论文结构优化建议(以深度学习论文为例)
markdown
# 推荐结构框架
1. **Abstract** (150-250词)
- 问题 → 方法 → 关键结果 → 意义(四句话模板)
2. **Introduction**
- 第一段:领域背景 + 现实痛点
- 第二段:现有方法局限(引用3-5篇关键工作)
- 第三段:本文贡献(用bullet points列出3条具体贡献)
- 第四段:论文结构预告
3. **Related Work**
- 按方法论/任务类型分组对比,避免罗列
- 明确本文与SOTA的差异定位
4. **Method**
- 先给整体框架图(Figure 1)
- 分小节详述模块,配合公式+伪代码
- 标注创新点(如"Unlike [X], we propose...")
5. **Experiments**
- 数据集:名称、规模、划分比例、预处理
- 基线:选择公认SOTA,说明复现细节
- 主结果:表格+显著性检验(bold标最优)
- 消融实验:验证各模块必要性
- 可视化:注意力图/失败案例分析
6. **Conclusion & Limitations**
- 总结贡献 + 坦诚说明局限(增强可信度)
🔹 可复现性(Reproducibility) Checklist ✅
AI顶会(NeurIPS/ICML/ICLR)普遍要求提交时附带复现性清单[[71]][[73]]:
yaml
□ 代码开源:GitHub链接 + LICENSE + README(含环境配置)
□ 随机性控制:注明random seed,多次实验报告均值±标准差
□ 数据细节:
- 训练/验证/测试集划分比例及依据
- 数据增强策略及参数
- 预处理/归一化方法
□ 实验配置:
- 硬件(GPU型号/数量)、框架版本、训练时长
- 优化器、学习率schedule、batch size等超参
□ 结果报告:
- 主指标+辅助指标(如Accuracy + F1 + AUC)
- 统计显著性检验(t-test/p-value)
- 计算资源消耗(FLOPs/参数量/推理延迟)
🔹 AI工具辅助写作的伦理规范
| 使用场景 | ✅ 推荐做法 | ❌ 避免行为 |
|---|---|---|
| 文献调研 | 用AI摘要工具快速筛选论文,但精读原文 | 直接引用AI生成的文献总结而不核实 |
| 初稿撰写 | 用AI生成段落草稿,人工重写+润色 | 直接提交AI生成文本作为最终内容 |
| 语言润色 | 用Grammarly/Wordtune检查语法 | 依赖AI改写导致技术表述失真 |
| 图表生成 | 用代码(matplotlib/plotly)生成可复现图表 | 用AI生成无法复现的示意图 |
| 引用管理 | 人工核对每条参考文献的准确性 | 信任AI生成的"幻觉引用"[[26]] |
📌 关键原则:所有AI辅助内容必须人工审核,投稿时按期刊要求披露使用情况(如Acknowledgments中说明"ChatGPT-4用于语言润色")[[21]][[25]]。
🚀 实用资源推荐
| 资源 | 用途 | 链接 |
|---|---|---|
| Overleaf arXiv模板 | 一键生成符合arXiv格式的LaTeX项目 | overleaf.com/gallery/tagged/arxiv |
| arXiv Sanity Preserver | 智能筛选/推荐cs.AI/cs.LG领域论文 | arxiv-sanity.com |
| Papers with Code | 查找SOTA方法及开源实现 | paperswithcode.com |
| ML Reproducibility Checklist | 自查实验可复现性 | cs.mcgill.ca/~jpineau/ReproducibilityChecklist.pdf |
💡 最后建议 :首次投稿前,建议先阅读目标领域近期arXiv论文(如搜索
cs.LG + your keyword),学习其写作风格与实验设计。投稿后积极关注社区反馈,预印本的价值不仅在于"发布",更在于"交流"。