英伟达推出合成数据集支持新加坡AI发展

英伟达联合新加坡人工智能机构发布了一个专门针对新加坡的合成人物数据集,旨在帮助当地开发者构建更好反映该国文化和语言多样性的人工智能模型。

这个名为Nemotron-Personas-Singapore的数据集包含88.8万个合成人物角色,这些虚构档案反映了新加坡的人口分布、文化特征和其他特色。通过使用这些数据训练或微调模型,开发者可以创建理解新加坡多元文化细节的智能体,而无需使用敏感的真实世界数据。

解决本土化挑战

大多数基础模型都是基于互联网上公开可用的信息进行训练的,这些信息主要以英语和西方文化为中心。这往往导致模型误解文化事实或无法理解本地意图,给地区开发者带来挑战。

Nemotron-Personas-Singapore数据集通过提供14.8万条记录来解决这个问题,每条记录都有六种人物角色变体。这些记录涵盖38个不同字段,从基本人口统计数据到职业和人生阶段等上下文细节,全部基于新加坡的公共人口普查数据,以及来自国家图书馆姓名权威数据和政府数据门户网站上的房地产经纪人信息。

由于数据完全由英伟达的合成数据生成微服务NeMo Data Designer生成,政府机构和企业可以构建反映本地人口的AI应用程序,同时避免使用个人身份信息带来的法律和道德风险。

多领域应用潜力

例如,金融机构可以构建执行基于人物角色的评估、偏见测试、适用性检查和脆弱场景压力测试的潜在AI应用,而无需重复使用敏感的客户数据。在医疗保健领域,该数据集可用于开发面向患者的聊天机器人和跨越患者人口统计、文化水平和护理环境的医疗翻译系统。

这个数据集的发布正值各国对主权AI日益关注之际,各国寻求构建和控制自己的AI基础设施和智能,而不是依赖从美国和中国科技巨头进口的模型。

英伟达在宣布这一举措的博客文章中表示:"新加坡已经确立了自己在构建既创新又负责任治理的AI系统方面的领导地位。通过可互操作的治理框架、应用隐私研究以及对合成数据的明确指导,该国已经证明AI主权最终关乎信任、透明度以及与当地规范的一致性。"

开放许可和兼容性

该数据集采用知识共享许可证(CC BY 4.0),允许商业和公共部门使用。它与英伟达的Nemotron模型以及其他开源大语言模型兼容,如新加坡人工智能机构专门为理解东南亚语言和背景而构建的Sea-Lion模型。

新加坡版本是英伟达合成人物角色集合更广泛推出的一部分,该集合包括美国、巴西、日本和印度等其他市场的类似数据集。

2024年早些时候,新加坡人工智能机构还与谷歌研究亚太区合作开展研究项目,构建可用于训练、微调和评估东南亚语言大语言模型的训练数据语料库,包括印尼语、泰语、泰米尔语、菲律宾语和缅甸语。

该项目涉及数据收集、整理和质量检查等领域的行业参与者,以及评估和基准技术方面的学术界,项目的数据集和输出结果已开源,以推进地区大语言模型的发展并支持本地使用案例。

Q&A

Q1:Nemotron-Personas-Singapore数据集包含什么内容?

A:该数据集包含88.8万个合成人物角色,共14.8万条记录,每条记录有六种人物角色变体。记录涵盖38个不同字段,从基本人口统计到职业、人生阶段等细节,全部基于新加坡公共人口普查数据和相关官方数据生成。

Q2:使用合成数据集有什么优势?

A:合成数据完全由AI生成,不涉及真实个人信息,因此政府机构和企业可以避免使用敏感数据带来的法律和道德风险。同时能够构建更好理解本地文化和语言特色的AI应用,解决传统模型偏向西方文化的问题。

Q3:这个数据集可以应用在哪些领域?

A:应用领域广泛,包括金融机构的风险评估和偏见测试,医疗保健领域的患者聊天机器人和医疗翻译系统。该数据集采用开放许可证,支持商业和公共部门使用,与多种开源大语言模型兼容。

相关推荐
郑同学zxc2 小时前
机器学习18-tensorflow3
人工智能·机器学习
这张生成的图像能检测吗2 小时前
(论文速读)基于快速局域谱滤波的卷积神经网络
人工智能·神经网络·cnn·图神经网络·分类模型
wuxuand3 小时前
2026论文阅读——BayesAHDD:当贝叶斯决策规则遇上小样本单类分类
论文阅读·人工智能·分类·数据挖掘
wuxuand3 小时前
2026论文阅读——FedOCC:当单类分类遇上联邦学习——生成对抗+联邦蒸馏的新范式
人工智能·分类·数据挖掘
minstbe6 小时前
IC设计私有化AI助手实战:基于Docker+OpenCode+Ollama的数字前端综合增强方案(进阶版)
人工智能·python·语言模型·llama
GinoInterpreter7 小时前
什么是翻译的去中心化?
人工智能·自然语言处理·去中心化·区块链·机器翻译·机器翻译模型·机器翻译引擎
码农小白AI8 小时前
IACheck AI报告文档审核:高端制造合规新助力,保障标准引用报告质量
大数据·人工智能·制造
_YiFei8 小时前
哪个降论文AI率工具最好用?
人工智能·深度学习·神经网络
放下华子我只抽RuiKe59 小时前
机器学习全景指南-直觉篇——基于距离的 K-近邻 (KNN) 算法
人工智能·gpt·算法·机器学习·语言模型·chatgpt·ai编程
kisshuan123969 小时前
[特殊字符]【深度学习】DA3METRIC-LARGE单目深度估计算法详解
人工智能·深度学习·算法