得票数最多 'apache-spark-dataset' 问题 - 第3页

标签列表

关联标签

18得票1回答

如何使用Spark DF或DS读取“.gz”压缩文件？

我有一个后缀为.gz的压缩文件，是否可能直接使用Spark DF/DS读取该文件? 细节：该文件是用制表符分隔的CSV文件。

apache-sparkapache-spark-sqlgzipapache-spark-dataset

18得票2回答

为Spark数据框/数据集进行有效连接的分区数据

我需要基于一些共享键列将许多DataFrame连接在一起。对于一个键值对RDD，可以指定一个分区器，使得具有相同键的数据点被洗牌到同一个执行器，因此如果在join之前存在与洗牌相关的操作，则连接更加高效。是否可以在Spark DataFrames或DataSets上执行相同的操作？

apache-sparkapache-spark-sqlpartitioningapache-spark-dataset

17得票2回答

如何在Java中使用Apache Spark将DataFrame转换为Dataset？

我可以很容易地将DataFrame转换为Scala中的Dataset：case class Person(name:String, age:Long) val df = ctx.read.json("/tmp/persons.json") val ds = df.as[Person] ds.p...

javaapache-sparkapache-spark-sqlapache-spark-dataset

16得票1回答

Spark更简单的值计数

有些类似于Spark - 按键分组再按值计数的方法可以让我在Spark中模拟Pandas的df.series.value_counts()功能，结果对象将按降序排列，以使第一个元素是出现最频繁的元素。默认情况下不包括NA值。（http://pandas.pydata.org/pandas-do...

apache-sparkapache-spark-sqlapache-spark-dataset

15得票1回答

为什么在类型化的 Dataset API 中不使用谓词下推（predicate pushdown）（相对于非类型化的 DataFrame API）？

我一直以为数据集/数据框架API是相同的，唯一的区别是数据集API会在编译时提供安全性。对吗？所以，我有一个非常简单的案例： case class Player (playerID: String, birthYear: Int) val playersDs: Dataset[Pl...

apache-sparkdataframeapache-spark-sqlapache-spark-dataset

15得票2回答

Spark Dataset使用TypedColumn进行select操作

查看Spark DataSet上的select()函数，有各种生成的函数签名：(c1: TypedColumn[MyClass, U1],c2: TypedColumn[MyClass, U2] ....) 这似乎暗示我应该能够直接引用MyClass的成员并实现类型安全，但我不确定如何做到.....

scalaapache-sparkapache-spark-dataset

14得票5回答

如何将数据框的列名转换为小写，但不影响其值？

如何在不改变数据框中的值的情况下，将数据框列名的大小写降低？使用原始的Spark SQL和Dataframe方法。输入数据框（假设我有100个这样的大写列）NAME | COUNTRY | SRC | CITY | DEBIT ------------------...

apache-sparkapache-spark-sqlapache-spark-dataset

14得票2回答

将 Spark DataSet 行数值映射到新的哈希列中

给定以下DataSet值作为inputData： column0 column1 column2 column3 A 88 text 99 Z 12 test 200 T 120 foo 12 在Spar...

scalaapache-sparkapache-spark-sqlapache-spark-dataset

14得票2回答

Spark结构化流 - 将静态数据集与流数据集进行连接

我正在使用 Spark 结构化流处理从 Kafka 读取的记录。以下是我想要实现的内容： (a) 每个记录都是类型为 (Timestamp, DeviceId) 的 Tuple2。 (b) 我已创建一个静态 Dataset[DeviceId]，其中包含了预期在 Kafka 流中看到的所有有...

scalaapache-sparkapache-spark-sqlapache-spark-datasetspark-structured-streaming

14得票2回答

将ADT / sealed trait层次结构编码为Spark DataSet列

如果我想在Spark的DataSet列中存储代数数据类型（ADT）（即Scala密封特质层次结构），最佳编码策略是什么？例如，如果我有一个ADT，其中叶子类型存储不同类型的数据： sealed trait Occupation case object SoftwareEngineer e...

scalaapache-sparkapache-spark-datasetapache-spark-encoders