ArXiv投稿详细操作指南 & AI论文写作最佳实践

📋 Part 1: arXiv投稿完整操作流程（2026最新版）

🔹 阶段一：投稿前准备

步骤	操作要点	注意事项
1. 注册账号	访问 arxiv.org/user/register 填写信息	✅ 强烈建议使用机构邮箱（.edu/.ac.cn等），可简化后续认证流程 $\[16$ ]
2. 确认endorsement资格	新作者或新类别需获得领域内endorsement	⚠️ 2026年新政：需同时满足①学术机构邮箱 + ②在目标领域已有arXiv论文所有权，否则需寻求个人endorsement $\[35$ ]
3. 准备源文件	推荐格式：(La)TeX / PDFLaTeX（首选），其次PDF	❌ 不接受dvi/PS/扫描件；文件名仅允许 `a-z A-Z 0-9 _ + - . , =` $\[16$ ]
4. 整理图表文件	LaTeX需EPS/PS格式；PDFLaTeX需PDF/JPG/PNG	⚠️ 图文件名大小写敏感，LaTeX引用需完全匹配 $\[16$ ]

🔹 阶段二：在线提交（Step-by-Step）

复制代码

📍 登录用户中心 → 点击 "START NEW SUBMISSION"

📁 Prepare Files 页面
- 点击 Choose File 上传源文件（支持zip/tar.gz批量上传）
- 上传后检查文件列表，删除冗余文件（点击🗑️图标）
- 点击 Check Files 让系统自动分析
⚙️ 编译配置确认
- 确认系统自动检测的编译器（LaTeX / PDFLaTeX）
- 确认 Top-Level TeX 文件 （含\documentclass的主文件）
- 查看 Auto-detected Notes，处理建议删除的文件
🔍 编译预览
- 系统编译成功后，务必 Preview your PDF 检查：
  - 参考文献是否正确渲染（搜索"??"确认无缺失引用）
  - 图表位置是否正常
  - 公式、特殊字符是否显示正常
- ❗ 常见编译错误排查\[16]：
  - 混用图形格式（PDFLaTeX不能用EPS）
  - 文件名大小写不匹配
  - hyperref包冲突（忽略默认warning，关注具体error）
  - 缺失自定义sty文件
📝 填写元数据（Metadata）
- 标题、摘要（用于检索和RSS推送，需精炼准确）
- 作者列表及affiliation（与源文件一致）
- 选择arXiv分类（如cs.LG、cs.AI、cs.CV等） $\[61$ ]
- 添加MSC/ACM分类代码（可选但推荐）
- 填写期刊投稿状态（如"Submitted to NeurIPS 2026"）
✅ 最终确认与提交
- 仔细核对所有信息
- 点击 Submit Article 完成提交
- 🕐 截止时间：美东时间14:00前提交，通常当晚20:00公开 $\[16$ ]

🔹 阶段三：提交后管理

场景	操作方式
提交后发现错误（未公开前）	点击用户页面的 🔄 "Unsubmit" 图标撤回修改
需要更新内容	在原记录上创建新版本（v2, v3...），不要新建提交 $\[16$ ]
论文被期刊录用	更新arXiv版本，添加"Accepted to XXX"标注，保留预印本链接 $\[25$ ]
需要补充代码/数据	通过"ancillary files"功能上传（≤10MB） $\[16$ ]

⚠️ 2026年新政策提醒：自2026年2月起，arXiv要求所有新提交论文必须包含完整英文版本（可为原文+英文翻译），AI辅助翻译内容可接受但需保证质量 $\[2$ ] $\[7$ ]。

✍️ Part 2: AI/ML领域论文写作最佳实践

🔹 核心写作原则

复制代码

🎯 好论文 = 清晰的问题定义 + 可复现的方法 + 有洞察的结论

原则	具体建议	来源参考
❶ 降低认知门槛	开篇明确说明研究问题的重要性，不要假设读者熟悉你的细分领域	$\[42$ ]
❷ 突出洞察而非技术堆砌	强调"为什么这个方法有效"，而非仅描述"用了什么技术"	$\[42$ ]
❸ 讲好故事线	论文应围绕1-3个具体、可验证的核心主张展开，形成逻辑闭环	$\[45$ ]
❹ 提供可执行细节	算法需附伪代码/流程图；实验需说明超参、随机种子、硬件配置	$\[38$ ]

🔹 论文结构优化建议（以深度学习论文为例）

markdown 复制代码

# 推荐结构框架

1. **Abstract** (150-250词)
   - 问题 → 方法 → 关键结果 → 意义（四句话模板）

2. **Introduction** 
   - 第一段：领域背景 + 现实痛点
   - 第二段：现有方法局限（引用3-5篇关键工作）
   - 第三段：本文贡献（用bullet points列出3条具体贡献）
   - 第四段：论文结构预告

3. **Related Work** 
   - 按方法论/任务类型分组对比，避免罗列
   - 明确本文与SOTA的差异定位

4. **Method** 
   - 先给整体框架图（Figure 1）
   - 分小节详述模块，配合公式+伪代码
   - 标注创新点（如"Unlike [X], we propose..."）

5. **Experiments**
   - 数据集：名称、规模、划分比例、预处理
   - 基线：选择公认SOTA，说明复现细节
   - 主结果：表格+显著性检验（bold标最优）
   - 消融实验：验证各模块必要性
   - 可视化：注意力图/失败案例分析

6. **Conclusion & Limitations**
   - 总结贡献 + 坦诚说明局限（增强可信度）

🔹 可复现性（Reproducibility） Checklist ✅

AI顶会（NeurIPS/ICML/ICLR）普遍要求提交时附带复现性清单 $\[71$ ] $\[73$ ]：

yaml 复制代码

□ 代码开源：GitHub链接 + LICENSE + README（含环境配置）
□ 随机性控制：注明random seed，多次实验报告均值±标准差
□ 数据细节：
  - 训练/验证/测试集划分比例及依据
  - 数据增强策略及参数
  - 预处理/归一化方法
□ 实验配置：
  - 硬件（GPU型号/数量）、框架版本、训练时长
  - 优化器、学习率schedule、batch size等超参
□ 结果报告：
  - 主指标+辅助指标（如Accuracy + F1 + AUC）
  - 统计显著性检验（t-test/p-value）
  - 计算资源消耗（FLOPs/参数量/推理延迟）

🔹 AI工具辅助写作的伦理规范

使用场景	✅ 推荐做法	❌ 避免行为
文献调研	用AI摘要工具快速筛选论文，但精读原文	直接引用AI生成的文献总结而不核实
初稿撰写	用AI生成段落草稿，人工重写+润色	直接提交AI生成文本作为最终内容
语言润色	用Grammarly/Wordtune检查语法	依赖AI改写导致技术表述失真
图表生成	用代码（matplotlib/plotly）生成可复现图表	用AI生成无法复现的示意图
引用管理	人工核对每条参考文献的准确性	信任AI生成的"幻觉引用" $\[26$ ]

📌 关键原则：所有AI辅助内容必须人工审核，投稿时按期刊要求披露使用情况（如Acknowledgments中说明"ChatGPT-4用于语言润色"） $\[21$ ] $\[25$ ]。

🚀 实用资源推荐

资源	用途	链接
Overleaf arXiv模板	一键生成符合arXiv格式的LaTeX项目	overleaf.com/gallery/tagged/arxiv
arXiv Sanity Preserver	智能筛选/推荐cs.AI/cs.LG领域论文	arxiv-sanity.com
Papers with Code	查找SOTA方法及开源实现	paperswithcode.com
ML Reproducibility Checklist	自查实验可复现性	cs.mcgill.ca/~jpineau/ReproducibilityChecklist.pdf

💡 最后建议 ：首次投稿前，建议先阅读目标领域近期arXiv论文（如搜索cs.LG + your keyword），学习其写作风格与实验设计。投稿后积极关注社区反馈，预印本的价值不仅在于"发布"，更在于"交流"。