我有一个后缀为.gz的压缩文件,是否可能直接使用Spark DF/DS读取该文件? 细节:该文件是用制表符分隔的CSV文件。
我需要基于一些共享键列将许多DataFrame连接在一起。对于一个键值对RDD,可以指定一个分区器,使得具有相同键的数据点被洗牌到同一个执行器,因此如果在join之前存在与洗牌相关的操作,则连接更加高效。是否可以在Spark DataFrames或DataSets上执行相同的操作?
我可以很容易地将DataFrame转换为Scala中的Dataset:case class Person(name:String, age:Long) val df = ctx.read.json("/tmp/persons.json") val ds = df.as[Person] ds.p...
有些类似于Spark - 按键分组再按值计数的方法可以让我在Spark中模拟Pandas的df.series.value_counts()功能,结果对象将按降序排列,以使第一个元素是出现最频繁的元素。默认情况下不包括NA值。(http://pandas.pydata.org/pandas-do...
我一直以为数据集/数据框架API是相同的,唯一的区别是数据集API会在编译时提供安全性。对吗? 所以,我有一个非常简单的案例: case class Player (playerID: String, birthYear: Int) val playersDs: Dataset[Pl...
查看Spark DataSet上的select()函数,有各种生成的函数签名:(c1: TypedColumn[MyClass, U1],c2: TypedColumn[MyClass, U2] ....) 这似乎暗示我应该能够直接引用MyClass的成员并实现类型安全,但我不确定如何做到.....
如何在不改变数据框中的值的情况下,将数据框列名的大小写降低?使用原始的Spark SQL和Dataframe方法。 输入数据框(假设我有100个这样的大写列)NAME | COUNTRY | SRC | CITY | DEBIT ------------------...
给定以下DataSet值作为inputData: column0 column1 column2 column3 A 88 text 99 Z 12 test 200 T 120 foo 12 在Spar...
我正在使用 Spark 结构化流处理从 Kafka 读取的记录。以下是我想要实现的内容: (a) 每个记录都是类型为 (Timestamp, DeviceId) 的 Tuple2。 (b) 我已创建一个静态 Dataset[DeviceId],其中包含了预期在 Kafka 流中看到的所有有...
如果我想在Spark的DataSet列中存储代数数据类型(ADT)(即Scala密封特质层次结构),最佳编码策略是什么? 例如,如果我有一个ADT,其中叶子类型存储不同类型的数据: sealed trait Occupation case object SoftwareEngineer e...