18得票1回答
如何使用Spark DF或DS读取“.gz”压缩文件?

我有一个后缀为.gz的压缩文件,是否可能直接使用Spark DF/DS读取该文件? 细节:该文件是用制表符分隔的CSV文件。

18得票2回答
为Spark数据框/数据集进行有效连接的分区数据

我需要基于一些共享键列将许多DataFrame连接在一起。对于一个键值对RDD,可以指定一个分区器,使得具有相同键的数据点被洗牌到同一个执行器,因此如果在join之前存在与洗牌相关的操作,则连接更加高效。是否可以在Spark DataFrames或DataSets上执行相同的操作?

17得票2回答
如何在Java中使用Apache Spark将DataFrame转换为Dataset?

我可以很容易地将DataFrame转换为Scala中的Dataset:case class Person(name:String, age:Long) val df = ctx.read.json("/tmp/persons.json") val ds = df.as[Person] ds.p...

16得票1回答
Spark更简单的值计数

有些类似于Spark - 按键分组再按值计数的方法可以让我在Spark中模拟Pandas的df.series.value_counts()功能,结果对象将按降序排列,以使第一个元素是出现最频繁的元素。默认情况下不包括NA值。(http://pandas.pydata.org/pandas-do...

15得票1回答
为什么在类型化的 Dataset API 中不使用谓词下推(predicate pushdown)(相对于非类型化的 DataFrame API)?

我一直以为数据集/数据框架API是相同的,唯一的区别是数据集API会在编译时提供安全性。对吗? 所以,我有一个非常简单的案例: case class Player (playerID: String, birthYear: Int) val playersDs: Dataset[Pl...

15得票2回答
Spark Dataset使用TypedColumn进行select操作

查看Spark DataSet上的select()函数,有各种生成的函数签名:(c1: TypedColumn[MyClass, U1],c2: TypedColumn[MyClass, U2] ....) 这似乎暗示我应该能够直接引用MyClass的成员并实现类型安全,但我不确定如何做到.....

14得票5回答
如何将数据框的列名转换为小写,但不影响其值?

如何在不改变数据框中的值的情况下,将数据框列名的大小写降低?使用原始的Spark SQL和Dataframe方法。 输入数据框(假设我有100个这样的大写列)NAME | COUNTRY | SRC | CITY | DEBIT ------------------...

14得票2回答
将 Spark DataSet 行数值映射到新的哈希列中

给定以下DataSet值作为inputData: column0 column1 column2 column3 A 88 text 99 Z 12 test 200 T 120 foo 12 在Spar...

14得票2回答
Spark结构化流 - 将静态数据集与流数据集进行连接

我正在使用 Spark 结构化流处理从 Kafka 读取的记录。以下是我想要实现的内容: (a) 每个记录都是类型为 (Timestamp, DeviceId) 的 Tuple2。 (b) 我已创建一个静态 Dataset[DeviceId],其中包含了预期在 Kafka 流中看到的所有有...

14得票2回答
将ADT / sealed trait层次结构编码为Spark DataSet列

如果我想在Spark的DataSet列中存储代数数据类型(ADT)(即Scala密封特质层次结构),最佳编码策略是什么? 例如,如果我有一个ADT,其中叶子类型存储不同类型的数据: sealed trait Occupation case object SoftwareEngineer e...