数据集

weixin_468466853 天前
深度学习·目标检测·数据集·图像分割·机器视觉·医学影像·ct影像
医学影像数据集汇总分享在深度学习领域,数据集的重要性不言而喻,因此本文对医学影像检测领域中公开的数据集进行了一个简要汇总,主要记录数据集的类型、数量等信息,并给出相应的下载地址。
数据岛13 天前
大数据·数据分析·数据集·能源
大模型应用的数字能源数据集除了尚须时日的量子计算解决算力效率和能源问题,以及正在路上的超越transformer的全新模型架构外,无疑是“数据集”,准确讲是“高质量大规模多样性的数据集”。数据集是大模型发展的核心要素之一,是大计算的标的物,是实现大模型商业闭环的基础和牵引力,是实现大模型向具身智能演进的关键主线,也是大数据产业在大模型时代的新使命。
知来者逆16 天前
人工智能·机器学习·机器人·数据集·大语言模型
Octo—— 基于80万个机器人轨迹的预训练数据集用于训练通用机器人,可在零次拍摄中解决各种任务论文地址:https://arxiv.org/abs/2405.12213 在机器人学中,通常使用针对特定机器人或任务收集的数据集来学习策略。然而,这种方法需要为每项任务收集大量数据,由此产生的策略只能实现有限的泛化性能。利用其他机器人和任务的经验可以获得更广泛的泛化性能,并在下游任务中获得更好的性能,但这需要考虑其他机器人的形态、传感器配置、任务规格和环境,因此建立一个能做到这一点的"通用机器人模型 "被认为是非常困难的任务。是一项非常艰巨的任务。
数据猎手小k18 天前
人工智能·算法·3d·数据集·机器学习数据集·ai大模型应用
EmoAva:首个大规模、高质量的文本到3D表情映射数据集。2024-12-03,由哈尔滨工业大学(深圳)的计算机科学系联合澳门大学、新加坡南洋理工大学等机构创建了EmoAva数据集,这是首个大规模、高质量的文本到3D表情映射数据集,对于推动情感丰富的3D头像生成技术的发展具有重要意义。
数据猎手小k20 天前
人工智能·语言模型·自然语言处理·数据集·机器学习数据集·ai大模型应用
GEOBench-VLM:专为地理空间任务设计的视觉-语言模型基准测试数据集2024-11-29 ,由穆罕默德·本·扎耶德人工智能大学等机构创建了GEOBench-VLM数据集,目的评估视觉-语言模型(VLM)在地理空间任务中的表现。该数据集的推出填补了现有基准测试在地理空间应用中的空白,提供了超过10,000个经过人工验证的指令,推动了环境监测、城市规划和灾害管理等领域的研究。
dundunmm21 天前
论文阅读·数据挖掘·数据集·聚类·单细胞·细胞聚类·细胞测序
论文阅读之方法: Single-cell transcriptomics of 20 mouse organs creates a Tabula MurisThe Tabula Muris Consortium., Overall coordination., Logistical coordination. et al. Single-cell transcriptomics of 20 mouse organs creates a Tabula Muris. Nature 562, 367–372 (2018).
数据猎手小k21 天前
人工智能·算法·数据集·音视频·机器学习数据集·ai大模型应用
BioDeepAV:一个多模态基准数据集,包含超过1600个深度伪造视频,用于评估深度伪造检测器在面对未知生成器时的性能。2024-11-29, 由罗马尼亚布加勒斯特大学创建BioDeepAV数据集,它专门设计来评估最先进的深度伪造检测器在面对未见过的深度伪造生成器时的泛化能力,这对于提高检测器的鲁棒性和适应性具有重要意义。
数据猎手小k21 天前
人工智能·数据集·机器学习数据集·ai大模型应用
HNTS-MRG 2024 Challenge:是一个包含200个头颈癌病例的磁共振图像及其标注的公开数据集,旨在推动AI在头颈癌放射治疗自动分割领域的研究。2024-11-28,由德克萨斯大学MD安德森癌症中心创建HNTS-MRG 2024 Challenge数据集,目的通过公开数据集推动自动分割算法的发展,这对于提高放射治疗的精确性和效率具有重要意义。
数据猎手小k1 个月前
数据集·开源软件·机器学习数据集·ai大模型应用
OSPTrack:一个包含多个生态系统中软件包执行时生成的静态和动态特征的标记数据集,用于识别开源软件中的恶意行为。2024-11-22 ,由格拉斯哥大学创建的OSPTrack数据集,目的是通过捕获在隔离环境中执行包和库时生成的特征,包括静态和动态特征,来识别开源软件(OSS)中的恶意指标,特别是在源代码访问受限时,支持在运行时高效检测方法。
HyperAI超神经1 个月前
人工智能·开源·自动驾驶·数据集·多模态·化学光谱·neurips 2024
NeurIPS 2024 有效投稿达 15,671 篇,数据集版块内容丰富NeurIPS,全称 Neural Information Processing Systems Conference,是神经信息处理系统的年度学术会议。该会议始于 1987 年,当时名为 NIPS。随着人工智能领域的快速发展,其影响力逐渐扩大,被越来越多的研究者和企业关注并熟知。为了更好地反映会议涵盖的广泛领域,NIPS 于 2017 年正式更名为 NeurIPS。
数据猎手小k1 个月前
人工智能·深度学习·机器学习·数据集·机器学习数据集·ai大模型应用
FineTuneBench:由斯坦福大学创建,包含625个训练问题和1075个测试问题,覆盖4个领域。目的评估商业微调API在不同泛化任务中的知识注入能力。2024-11-11,由斯坦福大学创建的FineTuneBench数据集,揭示了商业大型语言模型(LLMs)微调API在新知识学习和现有知识更新方面的显著不足,这对于理解和改进LLMs的适应性和可靠性具有重要意义。
命里有定数1 个月前
服务器·ubuntu·数据集
Ubuntu问题 - 显示ubuntu服务器上可用磁盘空间 一条命令df -h使用以下命令直接查看
数据猎手小k1 个月前
机器学习·支持向量机·数据集·聚类·机器学习数据集·ai大模型应用
PCBS:由麻省理工学院和Google联合创建,揭示1.2M短文本间的相似性的大规模图聚类数据集。2024-11-15,由麻省理工学院和Google联合创建的ParClusterers Benchmark Suite (PCBS)数据集,为图聚类算法的评估带来了革命性的意义。这个数据集不仅规模宏大,包含1.2M短文本,而且通过精确的50-最近邻图构建,为聚类算法提供了一个真实且具有挑战性的测试平台,从而推动了图聚类技术的发展和优化。
数据猎手小k1 个月前
人工智能·深度学习·语言模型·数据集·机器学习数据集·ai大模型应用
DAHL:利用由跨越 29 个类别的 8,573 个问题组成的基准数据集,评估大型语言模型在生物医学领域长篇回答的事实准确性。2024-11-14,由首尔国立大学创建的DAHL数据集,为评估大型语言模型(LLMs)在生物医学领域长文本生成中的幻觉问题提供了一个重要的工具,这对于提高模型的准确性和可靠性具有重要意义。
此星光明1 个月前
javascript·数据库·数据集·美国·数据·gee·土壤
GEE 数据集——美国gNATSGO(网格化国家土壤调查地理数据库)完整覆盖了美国所有地区和岛屿领土的最佳可用土壤信息目录简介代码引用网址推荐知识星球机器学习gNATSGO(网格化国家土壤调查地理数据库)gNATSGO(网格化国家土壤调查地理数据库)数据库是一个综合数据库,完整覆盖了美国所有地区和岛屿领土的最佳可用土壤信息。 本数据集仅提供栅格数据。 由于数据的原始格式为专有格式,因此源 COG 数据来源于 Planetary Computer STAC 目录。
OpenBayes1 个月前
人工智能·深度学习·机器学习·自然语言处理·开源·数据集·大语言模型
OpenBayes 一周速览丨VASP 教程上线!HPC 助力材料计算;AllClear 公共云层去除数据集发布,含超 23k 个全球分布的兴趣区域公共资源速递5 个数据集:* AFAD 亚洲面孔数据集* AllClear 公共云层去除数据集* MyAnimeList 热门动漫信息数据集
数据猎手小k1 个月前
数据集·机器学习数据集·ai大模型应用
CulturalBench :一个旨在评估大型语言模型在全球不同文化背景下知识掌握情况的基准测试数据集2024-10-04,为了提升大型语言模型在不同文化背景下的实用性,华盛顿大学、艾伦人工智能研究所等机构联合创建了CulturalBench。这个数据集包含1,227个由人类编写和验证的问题,覆盖了包括被边缘化地区在内的45个全球区域。CulturalBench的推出,目的通过一个稳健、多样化且具有挑战性的基准测试,衡量并跟踪我们在提升LLMs文化知识方面的进步。
此星光明1 个月前
数据集·甲醛·nasa·羟基·密度·剖面·hcho
2016年7月29日至2017年2月21日NASA大气层层析(ATom)任务甲醛(HCHO)、羟基(OH)和OH生产率的剖面积分柱密度目录简介摘要引用网址推荐知识星球机器学习ATom: Column-Integrated Densities of Hydroxyl and Formaldehyde in Remote Troposphere
数据猎手小k2 个月前
数据集·机器学习数据集·ai大模型应用
GS-Blur数据集:首个基于3D场景合成的156,209对多样化真实感模糊图像数据集。2024-10-31,由韩国首尔国立大学的研究团队创建的GS-Blur数据集,通过3D场景重建和相机视角移动合成了多样化的真实感模糊图像,为图像去模糊领域提供了一个大规模、高覆盖度的新工具,显著提升了去模糊算法在真实世界场景中的泛化能力。
HyperAI超神经2 个月前
人工智能·深度学习·机器学习·数据集·ai4s·科研领域·工科
贝式计算的 AI4S 观察:使用机器学习对世界进行感知与推演,最大魅力在于横向扩展的有效性「传统研究方法高度依赖于科研人员自身的特征和问题定义能力,通常采用小数据,在泛化能力和拓展能力上存疑。而 AI 研究方法则需要引入大规模、高质量数据,并采用机器学习进行特征抽取,这使得产生的科研结果在真实世界的问题中非常有效」。