19得票2回答
Avro单个模式中同一类型的多个记录

我想在一个Avro模式中多次使用相同的记录类型。考虑以下模式定义: { "type": "record", "name": "OrderBook", "namespace": "my.types", "doc": "测试订单更新", "fields"...

17得票1回答
在Apache Spark中从Avro文件中读取不支持的联合类型混合

我正在尝试从阅读csv平面文件转换为使用spark上的avro文件。参考https://github.com/databricks/spark-avro,我使用:import com.databricks.spark.avro._ val sqlContext = new org.apache...

9得票3回答
如何使用spark-avro包从spark-shell中读取avro文件?

我正在尝试按照Apache Avro数据源指南中的描述,使用spark-avro软件包。 当我提交以下命令时: val df = spark.read.format("avro").load("~/foo.avro") 我遇到了一个错误: java.util.ServiceConfi...

7得票3回答
如何在 Avro 格式中查询数据集?

这适用于Parquet格式。 val sqlDF = spark.sql("SELECT DISTINCT field FROM parquet.`file-path'") 我尝试使用Avro以同样的方式,但即使我使用com.databricks.spark.avro,它仍然会给我一个...

7得票1回答
如何在Spark Java中将Row中的结构字段转换为Avro记录

我有一个应用场景,需要将一个结构体字段转换为 Avro 记录。该结构体字段最初映射到 Avro 类型。输入数据是 Avro 文件,并且该结构体字段对应输入 Avro 记录中的一个字段。 以下是我想要在伪代码中实现的功能。 DataSet<Row> data = loadInpu...

7得票4回答
在Spark中如何创建一个空的数据框架

我有一组基于Avro的Hive表,需要从中读取数据。由于Spark-SQL使用Hive序列化器从HDFS读取数据比直接从HDFS读取慢得多,因此我使用了DataBricks Spark-Avro jar来从底层HDFS目录中读取Avro文件。除了当表为空时,一切都运行良好。我已经使用以下命令从...

7得票3回答
提供程序org.apache.spark.sql.avro.AvroFileFormat无法实例化。

无法从Spark Streaming应用程序向Kafka主题发送avro格式消息。关于Avro Spark Streaming示例代码的信息非常少。 "to_avro"方法不需要Avro模式,那么它将如何编码为Avro格式? 请问有人能帮忙解决以下异常吗? 依赖项: <depend...