数据集

狂小虎1 天前
ubuntu·数据集·zenodo
Ubuntu下载zenodo文件Ubuntu download zenodo一般数据集文件会比较大,直接下载单个压缩包很慢。可以使用代码多线程下载小文件。Ubuntu22.04https://github.com/dvolgyes/zenodo_get
HyperAI超神经3 天前
人工智能·深度学习·llm·html·数据集·多模态·gpt-4o
超越 GPT-4o!从 HTML 到 Markdown,一键整理复杂网页;AI 对话不再冰冷,大模型对话微调数据集让响应更流畅面对信息冗余的网页内容,如何快速提取全面的核心信息?Reader-LM 模型为你提供了专业的解决方案。Reader-LM 能高效处理高达 256K 字节的超长内容,精准将 HTML 转换为清晰的 Markdown 格式。它的表现甚至超过了 GPT-4o 等大型语言模型,其轻量化设计也使它更适合资源受限的场景。
HyperAI超神经10 天前
人工智能·深度学习·机器学习·计算机视觉·3d·大模型·数据集
微软与腾讯技术交锋,TRELLIS引领3D生成领域多格式支持新方向去年 11 月,腾讯推出 Hunyuan3D 生成模型,是业界首个同时支持文字和图像生成 3D 的开源大模型。紧接着不到一个月,微软便发布了全新框架 TRELLIS,加入 3D 资产生成领域的竞争中。TRELLIS 支持多格式输出,包括辐射场、3D 高斯和网格,为不同需求提供最大灵活性。
小舞O_o18 天前
人工智能·pytorch·python·分类·数据集
RP2K:一个面向细粒度图像的大规模零售商品数据集这是一种用于细粒度图像分类的新的大规模零售产品数据集。与以往专注于相对较少产品的数据集不同,我们收集了2000多种不同零售产品的35万张图像,这些图像直接在真实的零售商店的货架上拍摄。我们的数据集旨在推进零售对象识别的研究,该研究具有大量应用,如自动货架审计和基于图像的产品信息检索。我们的实验表明,即使是最先进的细粒度分类方法也没有优于简单的ResNet基线,这表明在细粒度零售产品分类任务上,提高分类性能的研究还有很大的潜在空间。我们的数据集具有以下特性:(1)就产品类别而言,它是迄今为止最大的数据集。(
weixin_468466851 个月前
深度学习·目标检测·数据集·图像分割·机器视觉·医学影像·ct影像
医学影像数据集汇总分享在深度学习领域,数据集的重要性不言而喻,因此本文对医学影像检测领域中公开的数据集进行了一个简要汇总,主要记录数据集的类型、数量等信息,并给出相应的下载地址。
数据岛1 个月前
大数据·数据分析·数据集·能源
大模型应用的数字能源数据集除了尚须时日的量子计算解决算力效率和能源问题,以及正在路上的超越transformer的全新模型架构外,无疑是“数据集”,准确讲是“高质量大规模多样性的数据集”。数据集是大模型发展的核心要素之一,是大计算的标的物,是实现大模型商业闭环的基础和牵引力,是实现大模型向具身智能演进的关键主线,也是大数据产业在大模型时代的新使命。
知来者逆1 个月前
人工智能·机器学习·机器人·数据集·大语言模型
Octo—— 基于80万个机器人轨迹的预训练数据集用于训练通用机器人,可在零次拍摄中解决各种任务论文地址:https://arxiv.org/abs/2405.12213 在机器人学中,通常使用针对特定机器人或任务收集的数据集来学习策略。然而,这种方法需要为每项任务收集大量数据,由此产生的策略只能实现有限的泛化性能。利用其他机器人和任务的经验可以获得更广泛的泛化性能,并在下游任务中获得更好的性能,但这需要考虑其他机器人的形态、传感器配置、任务规格和环境,因此建立一个能做到这一点的"通用机器人模型 "被认为是非常困难的任务。是一项非常艰巨的任务。
数据猎手小k2 个月前
人工智能·算法·3d·数据集·机器学习数据集·ai大模型应用
EmoAva:首个大规模、高质量的文本到3D表情映射数据集。2024-12-03,由哈尔滨工业大学(深圳)的计算机科学系联合澳门大学、新加坡南洋理工大学等机构创建了EmoAva数据集,这是首个大规模、高质量的文本到3D表情映射数据集,对于推动情感丰富的3D头像生成技术的发展具有重要意义。
数据猎手小k2 个月前
人工智能·语言模型·自然语言处理·数据集·机器学习数据集·ai大模型应用
GEOBench-VLM:专为地理空间任务设计的视觉-语言模型基准测试数据集2024-11-29 ,由穆罕默德·本·扎耶德人工智能大学等机构创建了GEOBench-VLM数据集,目的评估视觉-语言模型(VLM)在地理空间任务中的表现。该数据集的推出填补了现有基准测试在地理空间应用中的空白,提供了超过10,000个经过人工验证的指令,推动了环境监测、城市规划和灾害管理等领域的研究。
dundunmm2 个月前
论文阅读·数据挖掘·数据集·聚类·单细胞·细胞聚类·细胞测序
论文阅读之方法: Single-cell transcriptomics of 20 mouse organs creates a Tabula MurisThe Tabula Muris Consortium., Overall coordination., Logistical coordination. et al. Single-cell transcriptomics of 20 mouse organs creates a Tabula Muris. Nature 562, 367–372 (2018).
数据猎手小k2 个月前
人工智能·算法·数据集·音视频·机器学习数据集·ai大模型应用
BioDeepAV:一个多模态基准数据集,包含超过1600个深度伪造视频,用于评估深度伪造检测器在面对未知生成器时的性能。2024-11-29, 由罗马尼亚布加勒斯特大学创建BioDeepAV数据集,它专门设计来评估最先进的深度伪造检测器在面对未见过的深度伪造生成器时的泛化能力,这对于提高检测器的鲁棒性和适应性具有重要意义。
数据猎手小k2 个月前
人工智能·数据集·机器学习数据集·ai大模型应用
HNTS-MRG 2024 Challenge:是一个包含200个头颈癌病例的磁共振图像及其标注的公开数据集,旨在推动AI在头颈癌放射治疗自动分割领域的研究。2024-11-28,由德克萨斯大学MD安德森癌症中心创建HNTS-MRG 2024 Challenge数据集,目的通过公开数据集推动自动分割算法的发展,这对于提高放射治疗的精确性和效率具有重要意义。
数据猎手小k2 个月前
数据集·开源软件·机器学习数据集·ai大模型应用
OSPTrack:一个包含多个生态系统中软件包执行时生成的静态和动态特征的标记数据集,用于识别开源软件中的恶意行为。2024-11-22 ,由格拉斯哥大学创建的OSPTrack数据集,目的是通过捕获在隔离环境中执行包和库时生成的特征,包括静态和动态特征,来识别开源软件(OSS)中的恶意指标,特别是在源代码访问受限时,支持在运行时高效检测方法。
HyperAI超神经2 个月前
人工智能·开源·自动驾驶·数据集·多模态·化学光谱·neurips 2024
NeurIPS 2024 有效投稿达 15,671 篇,数据集版块内容丰富NeurIPS,全称 Neural Information Processing Systems Conference,是神经信息处理系统的年度学术会议。该会议始于 1987 年,当时名为 NIPS。随着人工智能领域的快速发展,其影响力逐渐扩大,被越来越多的研究者和企业关注并熟知。为了更好地反映会议涵盖的广泛领域,NIPS 于 2017 年正式更名为 NeurIPS。
数据猎手小k2 个月前
人工智能·深度学习·机器学习·数据集·机器学习数据集·ai大模型应用
FineTuneBench:由斯坦福大学创建,包含625个训练问题和1075个测试问题,覆盖4个领域。目的评估商业微调API在不同泛化任务中的知识注入能力。2024-11-11,由斯坦福大学创建的FineTuneBench数据集,揭示了商业大型语言模型(LLMs)微调API在新知识学习和现有知识更新方面的显著不足,这对于理解和改进LLMs的适应性和可靠性具有重要意义。
命里有定数2 个月前
服务器·ubuntu·数据集
Ubuntu问题 - 显示ubuntu服务器上可用磁盘空间 一条命令df -h使用以下命令直接查看
数据猎手小k2 个月前
机器学习·支持向量机·数据集·聚类·机器学习数据集·ai大模型应用
PCBS:由麻省理工学院和Google联合创建,揭示1.2M短文本间的相似性的大规模图聚类数据集。2024-11-15,由麻省理工学院和Google联合创建的ParClusterers Benchmark Suite (PCBS)数据集,为图聚类算法的评估带来了革命性的意义。这个数据集不仅规模宏大,包含1.2M短文本,而且通过精确的50-最近邻图构建,为聚类算法提供了一个真实且具有挑战性的测试平台,从而推动了图聚类技术的发展和优化。
数据猎手小k2 个月前
人工智能·深度学习·语言模型·数据集·机器学习数据集·ai大模型应用
DAHL:利用由跨越 29 个类别的 8,573 个问题组成的基准数据集,评估大型语言模型在生物医学领域长篇回答的事实准确性。2024-11-14,由首尔国立大学创建的DAHL数据集,为评估大型语言模型(LLMs)在生物医学领域长文本生成中的幻觉问题提供了一个重要的工具,这对于提高模型的准确性和可靠性具有重要意义。
此星光明2 个月前
javascript·数据库·数据集·美国·数据·gee·土壤
GEE 数据集——美国gNATSGO(网格化国家土壤调查地理数据库)完整覆盖了美国所有地区和岛屿领土的最佳可用土壤信息目录简介代码引用网址推荐知识星球机器学习gNATSGO(网格化国家土壤调查地理数据库)gNATSGO(网格化国家土壤调查地理数据库)数据库是一个综合数据库,完整覆盖了美国所有地区和岛屿领土的最佳可用土壤信息。 本数据集仅提供栅格数据。 由于数据的原始格式为专有格式,因此源 COG 数据来源于 Planetary Computer STAC 目录。
OpenBayes2 个月前
人工智能·深度学习·机器学习·自然语言处理·开源·数据集·大语言模型
OpenBayes 一周速览丨VASP 教程上线!HPC 助力材料计算;AllClear 公共云层去除数据集发布,含超 23k 个全球分布的兴趣区域公共资源速递5 个数据集:* AFAD 亚洲面孔数据集* AllClear 公共云层去除数据集* MyAnimeList 热门动漫信息数据集