• Empleos
  • Sobre nosotros
  • profesionales
    • Inicio
    • Empleos
    • Cursos y retos
  • empresas
    • Inicio
    • Publicar vacante
    • Nuestro proceso
    • Precios
    • Evaluaciones
    • Nómina
    • Blog
    • Comercial
    • Calculadora de salario

0

461
Vistas
¿Cómo leo un parquet en PySpark escrito desde Spark?

Estoy usando dos cuadernos Jupyter para hacer cosas diferentes en un análisis. En mi cuaderno de Scala, escribo algunos de mis datos limpios en el parquet:

 partitionedDF.select("noStopWords","lowerText","prediction").write.save("swift2d://xxxx.keystone/commentClusters.parquet")

Luego voy a mi cuaderno de Python para leer los datos:

 df = spark.read.load("swift2d://xxxx.keystone/commentClusters.parquet")

y me sale el siguiente error:

 AnalysisException: u'Unable to infer schema for ParquetFormat at swift2d://RedditTextAnalysis.keystone/commentClusters.parquet. It must be specified manually;'

He mirado la documentación de Spark y no creo que se me deba pedir que especifique un esquema. ¿Alguien se ha encontrado con algo como esto? ¿Debería estar haciendo algo más cuando guardo/cargo? Los datos están aterrizando en Object Storage.

editar: estoy cantando chispa 2.0 tanto en la lectura como en la escritura.

edit2: Esto se hizo en un proyecto en Data Science Experience.

about 3 years ago · Santiago Trujillo
2 Respuestas
Responde la pregunta

0

Leí el archivo de parquet de la siguiente manera:

 from pyspark.sql import SparkSession # initialise sparkContext spark = SparkSession.builder \ .master('local') \ .appName('myAppName') \ .config('spark.executor.memory', '5gb') \ .config("spark.cores.max", "6") \ .getOrCreate() sc = spark.sparkContext # using SQLContext to read parquet file from pyspark.sql import SQLContext sqlContext = SQLContext(sc) # to read parquet file df = sqlContext.read.parquet('path-to-file/commentClusters.parquet')
about 3 years ago · Santiago Trujillo Denunciar

0

Puede usar el formato de parquet de Spark Session para leer archivos de parquet. Me gusta esto:

 df = spark.read.parquet("swift2d://xxxx.keystone/commentClusters.parquet")

Aunque, no hay diferencia entre parquet y funciones de load . Puede darse el caso de que load no pueda inferir el esquema de datos en el archivo (por ejemplo, algún tipo de datos que no sea identificable por load o específico de parquet ).

about 3 years ago · Santiago Trujillo Denunciar
Responde la pregunta
Encuentra empleos remotos

¡Descubre la nueva forma de encontrar empleo!

Top de empleos
Top categorías de empleo
Empresas
Publicar vacante Precios Nuestro proceso Comercial
Legal
Términos y condiciones Política de privacidad
© 2025 PeakU Inc. All Rights Reserved.

Andres GPT

Recomiéndame algunas ofertas
Necesito ayuda