对于批量导入操作,为每个文件导入使用单独的:auto
命令,以确保它们不会被包含在一个显式的事务中。以下是脚本示例:
导入第一个CSV文件创建节点(Label1)
bash
:auto USING PERIODIC COMMIT
LOAD CSV WITH HEADERS FROM 'file:///xxxx.csv' AS line
CREATE (n:Label1 {id: toInteger(line.id), property1: line.property1})
导入第二个CSV文件创建节点(Label2)
bash
:auto USING PERIODIC COMMIT
LOAD CSV WITH HEADERS FROM 'file:///xxxxx2.csv' AS line
CREATE (m:Label2 {id: toInteger(line.id), property2: line.property2})
导入第三个CSV文件创建节点(Label3)
bash
:auto USING PERIODIC COMMIT
LOAD CSV WITH HEADERS FROM 'file:///xxxxxx3.csv' AS line
CREATE (m:Label3 {id: toInteger(line.id), property3: line.property3})
导入第4.5.6.7等等~~~~~个CSV文件创建节点(Labelx)
bash
:auto USING PERIODIC COMMIT
LOAD CSV WITH HEADERS FROM 'file:///xxxxxx3.csv' AS line
CREATE (m:Label4 {id: toInteger(line.id), property4: line.property4})
导入关系CSV文件创建关系
bash
:auto USING PERIODIC COMMIT
LOAD CSV WITH HEADERS FROM 'file:///guanxi.csv' AS line
MATCH (a:Label1 {id: toInteger(line.source)})
MATCH (b:Label2 {id: toInteger(line.target)})
CREATE (a)-[r:RELATIONSHIP_TYPE]->(b)
SET r = line // 如果你想将CSV中的所有列作为关系属性导入
注意事项
- 分批提交 :
USING PERIODIC COMMIT
默认会每1000条记录提交一次事务,如果你的数据集非常大,这有助于防止内存溢出。 - 数据验证:确保CSV文件中的数据格式正确无误,并且ID字段能够正确转换为整数类型。
- 索引和约束:如果可能的话,在导入前创建适当的索引或唯一性约束,可以大大提高匹配节点的速度。
- 错误处理 :考虑添加一些错误处理逻辑,例如使用
MERGE
代替CREATE
以避免重复插入节点。
确认数据导入
首先,运行一些简单的查询以确认数据已经被正确导入到Neo4j数据库中:
bash
MATCH (n:Label1) RETURN n LIMIT 25;
这将返回最多25个Label1
类型的节点,
检查关系
bash
MATCH ()-[r:RELATIONSHIP_TYPE]->() RETURN r LIMIT 25;
这将返回最多25条RELATIONSHIP_TYPE
类型的关系,
显示所有节点和关系
如果你想要查看所有节点及其关系,可以使用以下查询:
bash
MATCH (n)-[r]->(m)
RETURN n, r, m
LIMIT 25 // 限制返回的结果数量,避免一次性加载过多数据