langchain 加载 csv,json

csv

python 复制代码
from langchain_community.document_loaders.csv_loader import CSVLoader


loader = CSVLoader(file_path='data/专业描述.csv', csv_args={
    'delimiter': ',',
    'quotechar': '"',
    'fieldnames': ['专业', '描述']
}, encoding='utf8', source_column='专业')

data = loader.load()
print(data)
  • 'quotechar': '"': 设置了引用字符为双引号(")。在CSV文件中,如果某个字段值本身包含逗号或其他特殊字符,或者整个字段需要被视为一个不可分割的整体,通常会使用双引号将其包围起来。这里的设定告诉解析器如何正确识别和处理被引号包裹的字段值。

  • 'fieldnames': ['专业', '描述']: 提供了列名列表。如果CSV文件的第一行没有列名(或者不希望使用第一行作为列名),可以在这里显式指定列名。在这个例子中,列名分别为"专业"和"描述",对应到CSV文件中两列数据的实际含义。

  • source_column : '专业' 指定了一个特定的列名。这个参数的意义可能依赖于CSVLoader的具体实现细节。在某些上下文中,它可能用于指定作为后续处理主键或关键属性的列,在回溯某一行的时候可能有用

json

python 复制代码
from langchain_community.document_loaders import JSONLoader
import json
from pathlib import Path
from pprint import pprint


file_path = 'data/json_str.json'
data = json.loads(Path(file_path).read_text(encoding='utf8'))
pprint(data)

json分割

python 复制代码
import json
import requests

json_data = requests.get("https://api.smith.langchain.com/openapi.json").json()

from langchain_text_splitters import RecursiveJsonSplitter
splitter = RecursiveJsonSplitter(max_chunk_size=300)

# 最好的选择
json_chunks = splitter.split_json(json_data=json_data)  # json_data 为字典

# 把 json 当字符串了,不是最优方法
docs = splitter.create_documents(texts=[json_data])

# 也把 json 当字符串了,但结果跟 split_json 一样
texts = splitter.split_text(json_data=json_data)
print(texts[0])
print(texts[1])
相关推荐
Mintopia5 分钟前
🧠 量子计算对AIGC的潜在影响:Web技术的未来可能性
前端·javascript·aigc
街尾杂货店&6 分钟前
css - word-spacing 属性(指定段字之间的间距大小)属性定义及使用说明
前端·css
忧郁的蛋~22 分钟前
.NET异步编程中内存泄漏的终极解决方案
开发语言·前端·javascript·.net
水月wwww32 分钟前
vue学习之组件与标签
前端·javascript·vue.js·学习·vue
合作小小程序员小小店1 小时前
web网页开发,在线%商城,电商,商品购买%系统demo,基于vscode,apache,html,css,jquery,php,mysql数据库
开发语言·前端·数据库·mysql·html·php·电商
顾安r1 小时前
11.8 脚本网页 塔防游戏
服务器·前端·javascript·游戏·html
草莓熊Lotso1 小时前
C++ 方向 Web 自动化测试实战:以博客系统为例,从用例到报告全流程解析
前端·网络·c++·人工智能·后端·python·功能测试
fruge1 小时前
Canvas/SVG 冷门用法:实现动态背景与简易数据可视化
前端·信息可视化
一 乐1 小时前
旅游|内蒙古景点旅游|基于Springboot+Vue的内蒙古景点旅游管理系统设计与实现(源码+数据库+文档)
开发语言·前端·数据库·vue.js·spring boot·后端·旅游
驯狼小羊羔1 小时前
学习随笔-require和import
前端·学习