ArXiv投稿详细操作指南 & AI论文写作最佳实践

ArXiv投稿详细操作指南 & AI论文写作最佳实践


📋 Part 1: arXiv投稿完整操作流程(2026最新版)

🔹 阶段一:投稿前准备

步骤 操作要点 注意事项
1. 注册账号 访问 arxiv.org/user/register 填写信息 ✅ 强烈建议使用机构邮箱(.edu/.ac.cn等),可简化后续认证流程[[16]]
2. 确认endorsement资格 新作者或新类别需获得领域内endorsement ⚠️ 2026年新政:需同时满足①学术机构邮箱 + ②在目标领域已有arXiv论文所有权,否则需寻求个人endorsement[[35]]
3. 准备源文件 推荐格式:(La)TeX / PDFLaTeX(首选),其次PDF ❌ 不接受dvi/PS/扫描件;文件名仅允许 a-z A-Z 0-9 _ + - . , =[[16]]
4. 整理图表文件 LaTeX需EPS/PS格式;PDFLaTeX需PDF/JPG/PNG ⚠️ 图文件名大小写敏感,LaTeX引用需完全匹配[[16]]

🔹 阶段二:在线提交(Step-by-Step)

复制代码
📍 登录用户中心 → 点击 "START NEW SUBMISSION"
  1. 📁 Prepare Files 页面

    • 点击 Choose File 上传源文件(支持zip/tar.gz批量上传)
    • 上传后检查文件列表,删除冗余文件(点击🗑️图标)
    • 点击 Check Files 让系统自动分析
  2. ⚙️ 编译配置确认

    • 确认系统自动检测的编译器(LaTeX / PDFLaTeX)
    • 确认 Top-Level TeX 文件 (含\documentclass的主文件)
    • 查看 Auto-detected Notes,处理建议删除的文件
  3. 🔍 编译预览

    • 系统编译成功后,务必 Preview your PDF 检查:
      • 参考文献是否正确渲染(搜索"??"确认无缺失引用)
      • 图表位置是否正常
      • 公式、特殊字符是否显示正常
    • ❗ 常见编译错误排查[[16]]:
      • 混用图形格式(PDFLaTeX不能用EPS)
      • 文件名大小写不匹配
      • hyperref包冲突(忽略默认warning,关注具体error)
      • 缺失自定义sty文件
  4. 📝 填写元数据(Metadata)

    • 标题、摘要(用于检索和RSS推送,需精炼准确)
    • 作者列表及affiliation(与源文件一致)
    • 选择arXiv分类(如cs.LG、cs.AI、cs.CV等)[[61]]
    • 添加MSC/ACM分类代码(可选但推荐)
    • 填写期刊投稿状态(如"Submitted to NeurIPS 2026")
  5. ✅ 最终确认与提交

    • 仔细核对所有信息
    • 点击 Submit Article 完成提交
    • 🕐 截止时间:美东时间14:00前提交,通常当晚20:00公开[[16]]

🔹 阶段三:提交后管理

场景 操作方式
提交后发现错误(未公开前) 点击用户页面的 🔄 "Unsubmit" 图标撤回修改
需要更新内容 在原记录上创建新版本(v2, v3...),不要新建提交[[16]]
论文被期刊录用 更新arXiv版本,添加"Accepted to XXX"标注,保留预印本链接[[25]]
需要补充代码/数据 通过"ancillary files"功能上传(≤10MB)[[16]]

⚠️ 2026年新政策提醒:自2026年2月起,arXiv要求所有新提交论文必须包含完整英文版本(可为原文+英文翻译),AI辅助翻译内容可接受但需保证质量[[2]][[7]]。


✍️ Part 2: AI/ML领域论文写作最佳实践

🔹 核心写作原则

复制代码
🎯 好论文 = 清晰的问题定义 + 可复现的方法 + 有洞察的结论
原则 具体建议 来源参考
❶ 降低认知门槛 开篇明确说明研究问题的重要性,不要假设读者熟悉你的细分领域 [[42]]
❷ 突出洞察而非技术堆砌 强调"为什么这个方法有效",而非仅描述"用了什么技术" [[42]]
❸ 讲好故事线 论文应围绕1-3个具体、可验证的核心主张展开,形成逻辑闭环 [[45]]
❹ 提供可执行细节 算法需附伪代码/流程图;实验需说明超参、随机种子、硬件配置 [[38]]

🔹 论文结构优化建议(以深度学习论文为例)

markdown 复制代码
# 推荐结构框架

1. **Abstract** (150-250词)
   - 问题 → 方法 → 关键结果 → 意义(四句话模板)

2. **Introduction** 
   - 第一段:领域背景 + 现实痛点
   - 第二段:现有方法局限(引用3-5篇关键工作)
   - 第三段:本文贡献(用bullet points列出3条具体贡献)
   - 第四段:论文结构预告

3. **Related Work** 
   - 按方法论/任务类型分组对比,避免罗列
   - 明确本文与SOTA的差异定位

4. **Method** 
   - 先给整体框架图(Figure 1)
   - 分小节详述模块,配合公式+伪代码
   - 标注创新点(如"Unlike [X], we propose...")

5. **Experiments**
   - 数据集:名称、规模、划分比例、预处理
   - 基线:选择公认SOTA,说明复现细节
   - 主结果:表格+显著性检验(bold标最优)
   - 消融实验:验证各模块必要性
   - 可视化:注意力图/失败案例分析

6. **Conclusion & Limitations**
   - 总结贡献 + 坦诚说明局限(增强可信度)

🔹 可复现性(Reproducibility) Checklist ✅

AI顶会(NeurIPS/ICML/ICLR)普遍要求提交时附带复现性清单[[71]][[73]]:

yaml 复制代码
□ 代码开源:GitHub链接 + LICENSE + README(含环境配置)
□ 随机性控制:注明random seed,多次实验报告均值±标准差
□ 数据细节:
  - 训练/验证/测试集划分比例及依据
  - 数据增强策略及参数
  - 预处理/归一化方法
□ 实验配置:
  - 硬件(GPU型号/数量)、框架版本、训练时长
  - 优化器、学习率schedule、batch size等超参
□ 结果报告:
  - 主指标+辅助指标(如Accuracy + F1 + AUC)
  - 统计显著性检验(t-test/p-value)
  - 计算资源消耗(FLOPs/参数量/推理延迟)

🔹 AI工具辅助写作的伦理规范

使用场景 ✅ 推荐做法 ❌ 避免行为
文献调研 用AI摘要工具快速筛选论文,但精读原文 直接引用AI生成的文献总结而不核实
初稿撰写 用AI生成段落草稿,人工重写+润色 直接提交AI生成文本作为最终内容
语言润色 用Grammarly/Wordtune检查语法 依赖AI改写导致技术表述失真
图表生成 用代码(matplotlib/plotly)生成可复现图表 用AI生成无法复现的示意图
引用管理 人工核对每条参考文献的准确性 信任AI生成的"幻觉引用"[[26]]

📌 关键原则:所有AI辅助内容必须人工审核,投稿时按期刊要求披露使用情况(如Acknowledgments中说明"ChatGPT-4用于语言润色")[[21]][[25]]。


🚀 实用资源推荐

资源 用途 链接
Overleaf arXiv模板 一键生成符合arXiv格式的LaTeX项目 overleaf.com/gallery/tagged/arxiv
arXiv Sanity Preserver 智能筛选/推荐cs.AI/cs.LG领域论文 arxiv-sanity.com
Papers with Code 查找SOTA方法及开源实现 paperswithcode.com
ML Reproducibility Checklist 自查实验可复现性 cs.mcgill.ca/~jpineau/ReproducibilityChecklist.pdf

💡 最后建议 :首次投稿前,建议先阅读目标领域近期arXiv论文(如搜索cs.LG + your keyword),学习其写作风格与实验设计。投稿后积极关注社区反馈,预印本的价值不仅在于"发布",更在于"交流"。

相关推荐
Clarence Liu1 小时前
用大白话讲解人工智能(9) Transformer模型:让AI真正理解上下文
人工智能·深度学习·transformer
麦麦大数据1 小时前
F065_基于机器学习的KDD CUP 99网络入侵检测系统实战
网络·人工智能·机器学习·网络安全·入侵检测
Boxsc_midnight1 小时前
【MCP+ComfyUI+CherryStudio+Ollama】实现对话式智能批量生成图片(或视频)的方案,硬件友好方案!
网络·人工智能
海天一色y1 小时前
从零构建医疗AI Agent:RAG增强检索、混合搜索与模型部署实战
人工智能·langchain·智能体开发
Katecat996631 小时前
基于YOLOv10的混凝土蜂窝缺陷检测系统深度学习模型
人工智能·深度学习·yolo
自然语1 小时前
人工智能之数字生命-观察的实现
数据结构·人工智能·学习·算法
龙亘川1 小时前
城市大脑:智慧城市演进的核心引擎与实践路径探析
人工智能·智慧城市·城市大脑
AI Echoes1 小时前
对接自定义向量数据库的配置与使用
数据库·人工智能·python·langchain·prompt·agent
AIMarketing1 小时前
生成引擎优化(GEO)2.0:AI 营销时代的品牌增长新范式
人工智能