背景
OpenAI训练大模型需要大量数据,目前数据主要来源于公开数据集,同时也找了大量的肯尼亚工人来做有害数据的清洗。
为了让GPT大模型学到更广和更深的知识,OpenAI需要和各行各业合作,才能拿到更全的数据,以及对细分行业的深度理解。
在今年11月,OpenAI正式推出了数据合作伙伴项目,以下是项目合作内容的具体介绍。
合作内容
OpenAI正在推出数据合作伙伴项目,将与各组织一起生产用于训练AI模型的公共和私有数据集。
现代AI技术通过训练数据来学习我们世界的各项技能和方方面面 - 包括人,我们的动机,互动以及我们的沟通方式。为了最终制造对全人类都安全和有益的AGI,我们希望AI模型能深入理解所有的主题、产业、文化和语言,这需要尽可能广泛的训练数据集。
包括您的内容可以增加AI模型对您领域的理解,使AI模型对您更有帮助。
我们已经与许多伙伴合作,他们都渴望代表来自他们国家或行业的数据。例如,我们最近与冰岛政府和Miðeind ehf合作,通过整合他们策划的数据集来提高GPT-4的冰岛语能力。我们还与非营利组织Free Law Project合作,该项目旨在通过包含他们大量的法律文件在AI训练中,使法律理解民主化。我们知道还有许多人也想为AI研究的未来做出贡献,同时发现他们独特数据的潜力。
数据合作伙伴关系旨在使更多的组织能够帮助指导AI的未来,并从对他们更有用的模型中受益,通过包含他们关心的内容。
我们正在寻找的数据类型
我们对反映人类社会的,且今天还未容易在公共网络上获取的大规模数据集感兴趣。我们可以处理任何形式的数据,包括文本、图像、音频或视频。我们特别寻找表达人类意图的数据(例如,长篇写作或对话,而不是断续的片段),跨越任何语言,话题和格式。
我们可以处理几乎任何形式的数据,并可以使用我们下一代内部的AI技术帮助您将您的数据数字化和结构化。例如,我们有世界一级的光学字符识别(OCR)技术来数字化像PDF这样的文件, 和自动语音识别(ASR)来转录口语。如果数据需要清理(例如,有很多自动生成的工件或转录错误),我们可以和您的团队一起处理它,使它变成最有用的形式。我们不寻求含有敏感或个人信息,或属于第三方的信息的数据集;如果您需要帮助,我们可以和您一起将这些信息移除。
与我们合作的方式
我们目前有两种合作方式,并且可能会在未来扩大:
- 开源数据集: 我们正在寻找合作伙伴以帮助我们创建用于训练语言模型的开源数据集。这个数据集将对任何人开放,供人们在AI模型训练中使用。我们也会探讨安全地使用它来训练我们自己的其他开源模型。我们相信开源在生态系统中发挥着重要的作用。
- 私有数据集:我们也在准备私有数据集,用于训练专有的AI模型,包括我们的基础模型以及过微调和定制的模型。如果您有自己想要保密的数据,但您希望我们的AI模型对您的领域有更好的理解(或者您甚至只是想评估您的数据的潜力),这是最佳的合作方式。我们将以您偏好的数据保密性和访问控制来处理您的数据。 总的来说,我们在寻找那些希望帮助我们教AI理解我们的世界,以便对每个人都做到最大程度上的帮助的伙伴。和大家一起,我们可以朝着对全人类都有益的AGI前进。
如何提交合作意向
在OpenAI官网如下地址提交数据合作意向:
总结
文章和示例代码开源在GitHub: GPT实战教程,可以看到所有主流的开源LLM。
公众号:coding进阶。
个人网站:Jincheng's Blog。
知乎:无忌。