技术栈
datasets
西京刀客
3 天前
python
·
json
·
数据集
·
pandas
·
模型训练
·
datasets
python常用库-pandas、Hugging Face的datasets库(大模型之JSONL(JSON Lines))
在当今的数据交换领域,各种格式层出不穷,其中 Comma Separated Values(CSV)格式作为一种常见的数据交换格式,被广泛用于表示具有相同字段列表的记录集。而 JavaScript Object Notation(JSON)则已成为事实上的数据交换格式标准,取代了曾在 21 世纪初备受瞩目的 XML。JSON 不仅具有自我描述性,而且易于人类阅读。
Hiweir ·
8 个月前
人工智能
·
python
·
深度学习
·
自然语言处理
·
huggingface
·
datasets
NLP任务之翻译
目录1 加载预训练模型的分词器2 加载本地数据集3 数据预处理4 创建数据加载器5 定义下游任务的模型