idea生成数据集调研

从NeurIPS 2023（3218篇论文）和ICLR 2024（2260篇论文）这两场顶级计算机科学会议中被录用的论文中整理出数据集，最终得到5478个独特样本。随后，采用OpenAI的o1模型进行结构化提取步骤。对于每篇论文，我们首先从摘要中提取Bit、Flip和Spark三个关键要素，并引导o1模型识别其中的传统假设、创新方法，以及核心洞见的精炼4至6字概括。此外，我们还运用了高效的并行处理方法，并设置了重试机制，每项提取最多尝试三次，以确保输出的高质量。

对于提供全文的论文，我们使用一个专门的提示词来提取其中的"推理链"部分，引导模型重现从"Bit"到"Flip"的思维演进过程。这一步骤会从全文中移除摘要部分，以避免内容重复。随后，我们对论文进行处理，生成第一人称叙述，详细描述科学家的构思过程。处理后的结果以JSON格式存储，并附上论文ID、标题、作者、发表期刊、年份及引用信息等元数据。此外，我们还从作者近期提交的论文以及2024年至2025年间的相关研究工作中，独立构建了一个包含50个假设的测试集。

样例

LiveIdeaBench

地址

LiveIdeaBench --- LiveIdeaBenchhttps://liveideabench.com/

简介

这个数据集是相当于试验记录。

原论文通过关键词激发ideas，这个论文的评价尺度可以学习。

样例

与我方向无关，略

AI IDea Bench

地址

https://ai-idea-bench.github.io/https://ai-idea-bench.github.io/

来源论文

https://arxiv.org/abs/2504.14191https://arxiv.org/abs/2504.14191

简介

精选了ICLR 2025前2%的论文、CVPR 2024的亮点论文、ECCV 2024的口头报告、NeurIPS 2024的焦点与口头报告，以及ICML 2024的焦点与口头报告。此外，我们还纳入了NAACL 2024、EMNLP 2024和ACL 2024的长篇及主会报告。考虑到部分论文可能在正式提交前已通过arXiv发布预印本，我们使用了arXiv API。以排除2023年10月3日之前发表的论文。最终，我们共整理出3,495篇论文，这些论文将作为AI Idea Bench 2025数据集的基准真实数据。

对于每篇论文，我们采用Deepseek V3模型提取被引次数最高的十篇文献，随后由两位资深研究人员仔细评估这一候选名单，并最终遴选出五项既可行又合理的研究作为文献来源。

总结了目标文献所解决的问题，并明确了这些问题所属的研究领域，以及用于应对这些挑战的具体方法。在这一提取过程中，我们对方法进行了匿名化处理，既省略了其具体名称，又详细描述了各方法步骤。同时，我们还对目标文献的匿名化主题进行了概括，以进一步促进创意的生成。

样例

summary：

{ "主题": "LangSplat 采用了一种新颖的方法，通过 3D 高斯 Splatting 构建 3D 语言场，能够在 3D 空间内实现精确且高效的开放词汇查询。", "修订主题": "本文的主题是 3D 语言场建模。", "动机": "当前的 3D 语言场建模方法，如基于 NeRF 的方法，在速度和准确性方面存在显著局限性。这些方法难以实现精确的 3D 语言场，且渲染过程成本高昂。LangSplat 通过提出一种更高效和精确的 3D 语言场建模方法来解决这些问题，利用 3D 高斯 Splatting 和 SAM 的层次语义来提高性能和效率。", "方法": { "目标设计总结": "LangSplat 利用 3D 高斯 Splatting 进行高效渲染，并引入场景特定的语言自动编码器以降低内存成本。" } 它还采用 SAM 进行精确的物体分割，并利用层次语义来处理点模糊问题。"，"targeted_designs_details": { "design_name": $"带语言特征的 3D 高斯 splatting", "场景特定的语言自动编码器", "带 SAM 的层次语义"$ , "description": $"LangSplat 将 3D 场景表示为一组 3D 高斯集合，每个高斯都通过从 CLIP 特征中提取的语言嵌入进行增强。这种方法允许在高位分辨率下高效渲染语言特征，绕过了基于 NeRF 方法的昂贵渲染过程。"， "为了减少存储高维 CLIP 嵌入相关的内存成本，LangSplat 引入了一个场景特定的语言自动编码器。该自动编码器将 CLIP 特征压缩到低维潜在空间中，显著降低了内存需求，同时保持了语言特征的准确性。"， "LangSplat 利用 Segment Anything Model (SAM)获取精确的物体掩码和层次语义。"$ } 这种方法使模型能够准确捕捉物体边界和语义层次，无需在多个尺度上进行密集搜索，从而提高了基于语言的查询的效率和准确性。" ], "problems_solved": $"解决了基于 NeRF 的渲染的低效和高计算成本问题。", "缓解了高维语言嵌入显式建模相关的内存爆炸问题。", "解决了点模糊问题，通过提供精确的物体分割和层次语义，提高了 3D 语言场的准确性。"$ }, "datasets": "用于评估的 LERF 数据集，使用 iPhone 应用 Polycam 捕获，以及包含各种姿态和背景中长尾物体集合的 3D-OVS 数据集。", "metrics": "评估指标包括 3D 物体定位任务的定位精度和 3D 语义分割任务的 IoU（交并比）结果。" mIoU（平均交并比）指标用于 3D-OVS 数据集。" }, "split_topic": { "rank": $1, 2, 3, 4, 5$ , "keyword": $"3D 建模", "语言领域", "空间表示", "语言数据", "计算建模"$ , "explanation": $"这是该主题的核心概念，因为它直接指代三维表示的创建过程，这是该主题的基础。", "这个术语至关重要，因为它指定了建模的领域，该领域涉及语言或文本数据，将其与其他类型的 3D 建模区分开来。", "这个关键词是相关的，因为 3D 建模本质上处理空间维度以及语言或文本数据在空间中的表示方式。", "这是必要的，因为它突出了正在建模的数据类型，强调了语言与 3D 表示之间的联系。", "这个术语很重要，因为它描述了用于创建和分析 3D 语言场模型的方法或技术。"$ } }

HypoBench

地址

HypoBench -- 向系统化和原则化假设生成基准测试迈进 --- HypoBench -- Towards Systematic and Principled Benchmarking for Hypothesis Generation (chicagohai.github.io)https://chicagohai.github.io/HypoBench/

来源论文

https://arxiv.org/abs/2504.11524

简介

HypoBench 提供了一个全面的框架，用于评估模型生成能够解释观察现象的合理假设的能力。我们的基准测试：

结合了 12 个领域和 194 个数据集的真实世界和合成数据集
评估假设质量的多维度，重点在于解释力
实现不同方法和模型之间的系统性比较

样例

与我的方向无关，不看了。

discoverybench

地址

discoverybenchhttps://huggingface.co/datasets/allenai/discoverybench

来源论文

DISCOVERYBENCH: Towards Data-Driven Discoverywith Large Language Models

简介

对于数据优先方法：我们根据公开的公共数据集（D），如全国纵向调查（NLS）、全球生物多样性信息设施（GBIF）以及世界银行开放数据（WBOD），这些数据集均附有工作流详细信息，筛选出相关论文；2）随后，我们尝试用Python复现这些工作流。

从设计上采用的数据优先方法，仅限于上述众所周知的公开数据集。为了提升领域、数据集及工作流的多样性，我们还引入了一种代码优先方法为了超越流行的公共数据集。在此方法中，我们首先根据附有可用数据集的科学论文搜索代码仓库，然后尝试用现有代码或从头开始、结合对相关论文的解读，以Python语言复现这些数据集。

专有/非开放数据集。我们最终确定了一份包含14个存储库的候选列表，但最终只有其中3个通过了我们针对其假设的所有检查，被纳入基准测试2中。

样例

看着像找到能复现的论文，如何又复现了一遍，确认了结论。