Solo estoy importando algunas cosas del archivo .csv a Neo4j. Siempre he usado MERGE
para crear un nodo, pero ahora, cuando intento importar desde .csv, algunos de los datos son nulos, por ejemplo, la address
de la columna. Cuando estoy haciendo MERGE
en lugar de CREATE
da un error, pero cuando hago CREATE
funciona bien. La única diferencia que conozco entre MERGE
y CREATE
es que si el nodo ya existe, MERGE
no crea uno nuevo.
mi consulta:
LOAD CSV WITH HEADERS FROM '<path>' as line CREATE (a: Address { address: line.address, postalCode: toInteger(line.postalCode), town: line.town, municipalityNr: toInteger(line.municipalityNr), municipality: line.municipality, countryCode: line.countryCode, country: line.country }) RETURN a.address
Al realizar una MERGE
, Neo4j espera un valor en el que pueda fusionarse. MERGE
usando un valor nulo siempre dará como resultado un error.
En general, este es el enfoque:
Solo MERGE
en propiedades que sean relevantes para encontrar un nodo único. Entonces, por ejemplo, si desea MERGE
automóviles, la placa sería la propiedad a usar. Asegúrese de tener una CONSTRAINT
para la propiedad en la que se MERGE
. Esto ayudará a acelerar la importación. Para evitar valores nulos en MERGE
, puede usar COALESCE()
. Después de MERGE
, puede SET
las otras propiedades, que pueden tener valores nulos.
MERGE {c:Car {licensePlate: COALESCE(line.licensePlate,'Unknown') }) SET c.color = line.color, c.someproperty = line.someproperty
Al final de la ejecución, encontrará un solo nodo :Car
con licensePlate:'Unknown'
De acuerdo con Graphileon.
Hay una trampa que debes evitar. También desea evitar propiedades que puedan variar dentro de un conjunto de datos. Por ejemplo, la misma persona tiene una fecha de nacimiento en diferentes formatos (por ejemplo, 16/05/85, 16/05/1985), agregaría nodos duplicados si la fecha de nacimiento fuera parte de los criterios de combinación. Para evitar esto, puede hacer la combinación sin la fecha y luego, en un paso posterior, agregar la propiedad... por supuesto, solo el último esfuerzo de este tipo aguantaría.
Puede verificar que no haya nodos duplicados. En el ejemplo dado, si está seguro de que el nombre es único o el número de licencia del automóvil:
match (p:Person) return p.name, count(*) as ct order by ct desc